No. 63/622 Index Prev Next
Relay-Version: version B 2.10.2 9/18/84; site titcca.UUCP
Posting-Version: version B 2.10.2 9/5/84; site srava.UUCP
Path: titcca!srava!nisimura
From: nisimura@srava.UUCP (Tohru Nisimura [peg])
Newsgroups: fj.kanji
Subject: Re: How to distinguish DEC kanji from SHIFT JIS? (in Newest JIS)
Message-ID: < 324@srava.UUCP> 
Date: 14 Nov 86 14:59:32 GMT
Date-Received: 14 Nov 86 15:04:36 GMT
Reply-To: nisimura@srava.sra.junet (Tohru Nisimura [peg])
Distribution: fj
Organization: Software Research Associates, Inc. Tokyo, Japan
Lines: 39



こんにちは。


----------------------------- さとうさん@東工大は書きました
> そこで、どなたかDEC漢字で用いる2−byteコードとshi
>ft−jisの2−byteコ−ドは区別できるのかどうか?できる
>のなら、どうやってするのか?等について御説明くださるようお願い
>します。(私はDEC漢字については何も知らないので、そこんとこ
>よろしく!たぶんできないような気がするが)



SHIFT JIS と DEC漢字は区別できません。

SHIFT JIS では、8ビットコード表の右(つまり8ビット目が立っている)
のうち、JIS Kana が占めている領域を巧妙に避けて1バイト目を配置しています。
一方 DEC漢字は一バイト目は 16進 0xa0 以上になるようになっています。
この 0xa0 は8ビットコード表右図形文字領域の最初の文字です。
したがってある一バイト読んだ時、これが0x7fより小さい値を表現していたら、
いわゆる半角英数文字であることでは両者は一致していますが、0x80以上の
値の時には読み込んだ文字が漢字の1バイト目であるか否かを判別するためには
事前に SHIFT JIS であるか DEC 漢字であるかを知っていなくてはなりません。
残念でした。

それからこれは些細なことかも知れませんが、DEC漢字コード系には半角カナは
存在しません。
ついでにいうとAT&Tの EUC コード系と DEC漢字コード系は半角カナ問題を
無視すれば事実上コンパチブルです。半角カナを使わない事にすれば、プログラ
ムのコーディングの際、二つを特別に区別する必要はありません。
G0、G1、G2、G3への図形文字の割り当てをみれば、EUC と DEC漢字が
ほとんど同一のものであることがよくわかります。


			SRA環境開発本部
			西村 亨 
			Network:	nisimura@srava.sra.junet
			Voice:		03-234-2692
Next
Continue