No. 102/622 Index Prev Next
Path: titcca!kossvax!patty!kana
From: kana@patty.ricoh.JUNET (Katsumi Kanasaki)
Newsgroups: fj.kanji
Subject: Re: Saving problem. (in Japanese/Kanji)
Message-ID: < 1082@patty.ricoh.JUNET> 
Date: 23 Jun 87 11:16:36 GMT
References: < 229@kaba.JUNET> 
Distribution: fj
Organization: Ricoh Software Research Center, Tokyo
Lines: 54

In article < 229@kaba.JUNET> ,
	ohm@kaba.JUNET (Morishima Akitoshi) says:
>  
>  UJISと言う呼び方に, 前から疑問を感じていたのですが…
> Uって, UNIX? UNIVERSAL? UNIXだとしたら, 何でAT& Tのコードが
>  UNIXの漢字コードと言われないといけないの?
> 大体, AT& Tの漢字コードって, EUCという名前があるんじゃないの?
>  (EUCはExtended Unix Codeだっけ?)

私は以下のように理解しています。

まず EUC ですが、これは Extended UNIX Codes の略で、次のような
コード系のテンプレートです。

以下の4つのコード集合があって、混ぜて使うことができます。

(0) 0xxxxxxx
(1) 1xxxxxxx または 1xxxxxxx 1xxxxxxx
(2) SS2 1xxxxxxx または SS2 1xxxxxxx 1xxxxxxx
(3) SS3 1xxxxxxx または SS3 1xxxxxxx 1xxxxxxx

(0) は必ず ASCII と解釈されます。
(1) から (3) のバイト数は具体的なコードの割り当てとともに言語ごとに
決められます。
SS2 と SS3 はそれぞれ16進で 8e と 8f です。
なお(SS2 や SS3 を除いて)3バイト以上でも良いように書いてある
文献もあります。

このコード系は AT& T の System V Interface Definition にも載って
いますが、EUC という呼び方をしているのは私の聞いた範囲では
AT& T UNIX Pacific だけです。

AT& T UNIX Pacific では System V で日本語が扱えるように JAE
(Japanese Application Environment) というものを売っていますが、
これでは EUC に合わせて次のコード系を使っています。

(0) 0xxxxxxx			ASCII
(1) 1xxxxxxx 1xxxxxxx		JIS の全角文字
(2) SS2 1xxxxxxx		JIS の半角カナ文字
(3) SS3 1xxxxxxx 1xxxxxxx	外字

いずれにせよ EUC は日本語のためだけのコードではありません。
すでにハングル版も作られています。

次に UJIS ですが、これはシグマOSの日本語コード系で、Unixnized
extended JIS の略だそうです。
具体的には上の JAE のコードと同じです。

シグマJISというような名前でも良かったのだと思いますが、
そうすると略した時に SJIS となってシフトJISと区別がつけられない、
ということではないかと想像しています。

					金崎克己
					kana@ricoh
Next
Continue < 460@tansei.cc.u-tokyo.JUNET>