Very old fj.kanji discussion 63/622

No. 63/622 Index Prev Next
Relay-Version: version B 2.10.2 9/18/84; site titcca.UUCP
Posting-Version: version B 2.10.2 9/5/84; site srava.UUCP
Path: titcca!srava!nisimura
From: nisimura@srava.UUCP (Tohru Nisimura [peg])
Newsgroups: fj.kanji
Subject: Re: How to distinguish DEC kanji from SHIFT JIS? (in Newest JIS)
Message-ID: < 324@srava.UUCP> 
Date: 14 Nov 86 14:59:32 GMT
Date-Received: 14 Nov 86 15:04:36 GMT
Reply-To: nisimura@srava.sra.junet (Tohru Nisimura [peg])
Distribution: fj
Organization: Software Research Associates, Inc. Tokyo, Japan
Lines: 39



こんにちは。


-----------------------------　さとうさん＠東工大は書きました
＞　そこで、どなたかＤＥＣ漢字で用いる２−ｂｙｔｅコードとｓｈｉ
＞ｆｔ−ｊｉｓの２−ｂｙｔｅコ−ドは区別できるのかどうか？できる
＞のなら、どうやってするのか？等について御説明くださるようお願い
＞します。（私はＤＥＣ漢字については何も知らないので、そこんとこ
＞よろしく！たぶんできないような気がするが）



SHIFT JIS と DEC漢字は区別できません。

SHIFT JIS では、８ビットコード表の右（つまり８ビット目が立っている）
のうち、JIS Kana が占めている領域を巧妙に避けて１バイト目を配置しています。
一方 DEC漢字は一バイト目は １６進 0xa0 以上になるようになっています。
この 0xa0 は８ビットコード表右図形文字領域の最初の文字です。
したがってある一バイト読んだ時、これが0x7fより小さい値を表現していたら、
いわゆる半角英数文字であることでは両者は一致していますが、0x80以上の
値の時には読み込んだ文字が漢字の１バイト目であるか否かを判別するためには
事前に SHIFT JIS であるか DEC 漢字であるかを知っていなくてはなりません。
残念でした。

それからこれは些細なことかも知れませんが、DEC漢字コード系には半角カナは
存在しません。
ついでにいうとＡＴ＆Ｔの EUC コード系と DEC漢字コード系は半角カナ問題を
無視すれば事実上コンパチブルです。半角カナを使わない事にすれば、プログラ
ムのコーディングの際、二つを特別に区別する必要はありません。
Ｇ０、Ｇ１、Ｇ２、Ｇ３への図形文字の割り当てをみれば、EUC と DEC漢字が
ほとんど同一のものであることがよくわかります。


			ＳＲＡ環境開発本部
			西村　亨 
			Network:	nisimura@srava.sra.junet
			Voice:		03-234-2692
Next
Continue