No. 419/622 Index Prev Next
Path: titcca!ccut!tomo!wada
From: wada@tomo.wadalab.u-tokyo.JUNET (wada)
Newsgroups: fj.kanji
Subject: Re: ancient character sets
Message-ID: < 20@tomo.wadalab.u-tokyo.JUNET> 
Date: 17 Apr 89 08:53:31 GMT
Reply-To: wada@tomo.wadalab.u-tokyo.JUNET ()
Distribution: fj
Organization: Wadalab/Dept of Math Eng/Univ of Tokyo
Lines: 114


和田です(東大 計数工学科/教育用計算機センター)
;wada@ccut.cc.utyo.junet,koper@tecc.ecc.utyo.junet
;(03)812-2111 ex 7410

In article < 988@ihitsy.ihi.JUNET> , alceste@ihitsy.ihi.JUNET (SHIINO Masayoshi)
writes:

>In article < 21252@wsgw.ws.sony.junet>  sakamoto@ws.sony.junet (Tomohiko
Sakamoto) writes:
> 
> > 「なぜ、『JIS X0201 カタカナ』は 10/1〜13/15で、14/0〜15/14がないのか」
> > 「なぜ、昔のテレタイプに小文字がなかったのか」
> > 「もし、万一 JUNET のネットワーク上を流れたら多くの人が気持ち悪いと思う
> > であろう EBCDIC はどうしてアルファベットが連続していないのだろうか」
> 
> 知りたい。教えて教えて。こういうの大好きなんです。
> 
> カタカナなんかは多分64文字に抑えたかったんでしょうね。
> テレタイプも64文字なのかしら?
> EBSDICはIBMカードの孔と関係がありそうですね。でも64文字
> セットとか256文字全部とかの全体を見ると美しくないし...
> 
> # もしよろしければ参考文献だけでもお知らせ下さい。
> -- 
> 				椎野正元 (しいの まさよし)
> 

こういうことはお任せください. 今の文字セットは昔の印刷電信機に基いており,
それはまたモールス信号に端を発しています. 電信級の従免をとった人は欧文の
トンツーの試験を受けたと思いますが, あの文字セットは英大文字, 数字と若干の
記号でした. これは電信の標準文字セットらしく, CCITT Recomendation F.1
Division B にのっています.
記号は
period        .
comma         ,
colon         :
question mark ?
apostrophe    '
hyphen        -
slant         /
parenthesis   (
              )
equal         =
plus          +
multiplication (記号がない; これは困った.)
の12です. (+,-,かける,/,= があったけど計算機とはまったく関係なし)

同Recommendation F.1 の Division C には International Telegraph Alphabet No2
という5単位のコード表が出ていて文字セットは大体これと同じですが, 乗算記号
がなくそれはXを送出せよということになっています. つまりテレタイプの基本
文字セットはモールス符号なのです.
モールス符号と5単位テレタイプはいつごろからあったか昔のものを調べてみましたら,
東大工学部計数工学科の図書室にある, 通信工学ポケットブック(大正15年4月発行)
にはのっていました. 5単位テレタイプコードは今も健在らしく, ISO 6936 は
このITA No2 と ASCII (またはISO 6937) との変換規則です. またISO 6937 には
subrepertoire には26大文字, 26小文字, 10数字, 及び '(),-./:?+= を含むことという
規定があります. (つまりITA No2 + small letter)
5単位のテレタイプはコードが32種しかないので, 大文字をとると後はシフトしなけれ
ばならず, 2段シフト(lettter shift, figure shift), 鍵盤は3段キィでした. 

日本はそのテレタイプを4段キィ, 6単位2段シフトにし, 逓信省などで使っていまし
た. このコード表と鍵盤配列も上の大正15年の本にのっています. 6単位だとカナモ
ジは十分はいるのですが, 64キィの鍵盤をつくるわけにもいかず, カナも一部は上段
に配置してありました. 頻度の少い文字のせいか, ユレソヌの4文字が上段でしたが,
コセヒノの4文字は下段と上段の両方にありました. なぜだかわかりますか?
この鍵盤は(漢)数字が上段にあったのです. 郵便局は電報で, 何日のところを「何ヒ」,
午前を「セ」, 午後を「コ」と表示したので, ヒ,セ,コは数字と同じ段にしたのです.
(transition probability の問題) ノですが, これは3丁目50番地を「3ノ50」と表示
するためのものです.
上段のコセヒノと下段のコセヒノはキィの場所がちがうので, コードも別です.

さて, International Telegraph Alphabet No2のコードは
A  11000
B  10011
C  01110
という具合で, コードを覚える楽しみはありましたが (PC-1, パラメトロン計算機は
このコードでした.) 計算機処理は面倒で, ISOは大体同じ文字セットで6単位のコード
をつくりました. これはあまり知られていませんが, 昭和41年に出た情報処理学会
編の電子計算機ハンドブックの規格の部にでています. これではカナが入りません
ので, 日本は7単位の方だけとり入れたと思われます. 英字は勿論大文字だけです.
テレタイプは大文字だけとうのが主流でしたから, 向うは6単位でよかったわけです.
これが「テレタイプも64文字なのかしら?」の答です.
このコードは
E  10000
T  00001
I  01100
O  00011
で, モールス符号がよく出る文字を短かくしているのと同様, 頻度の高い文字の穴を少く
しています. くずをなるべく出さないためです:-)

「カタカナなんかは64文字に抑えたかったのでしょうね」
ですが, これはカナのタイプライタによると察っせられます. 逓信省(=郵便局)の
テレタイプの他に日本にはカナモジカイのタイプライタがありました. 鍵盤配列は
全然別です. カナモジカイはビヨウインとビョウインを区別すべきだというので
ャュョッの小文字を持っていました. 濁点等はnon-spacingのキィで処理していた
のでしょうか. JIS X 0201 カナのコードはこの文字セットが基本と思われます.
94文字をすべて使わなくてもよいので, 4列のコードになったのでしょう. 漢字のJIS
(JIS X 0208)の4,5列が濁点,半濁点つきの文字を独立にし, 94文字に収っているので
そうすることもできたというのは後からの考えですねぇ. (カナモジカイのタイプラ
イタにヰやヱがあったかどうか思いだせません.)

「EBCDICはIBMカードと関係が...」はそのとうりです. IBMカードはもともと数字
だけのものでした.(それと+,-)
alphabet (大文字だけ) を入れるのにカードの上3列と下9列のそれぞれに1個あなをあけ
3*9で27文字を表現し, 一方それを最も単純な変換回路で変換した結果が EBCDIC
です. IBM 7090 時代の6ビットEBCDICはまだ奇麗でしたが, 8ビットのはいただけま
せん.

これで大体答になったでしょうか. コードに関心を持っていただき, ISO/JTC1/
SC2 国内委員会の主査としては嬉しく思います.

73
de JK1FUZ
Next
Continue < 1005@ihitsy.ihi.JUNET>
< 268@t-gitan.t-gitan.JUNET>