にせねこメモ

はてなダイアリーがUTF-8じゃないので移ってきました。

『文字符号の歴史 ―アジア編―』を読んだ

三上 喜貴『文字符号の歴史 ―アジア編―』(共立出版、2002年)を読んだ。
www.kyoritsu-pub.co.jp


Unicode以前のアジアの文字コードについてまとめられた大著である。アジア編と題しているが、文字の種類ならアジアが世界の地域で最大なので、カバーする範囲はめちゃくちゃ広い。

本書では活版印刷・タイプライター・電信から始まり、電算処理の需要からASCIIなどの文字コードが作成され、文字コードが多言語に拡大されていく流れを描き出している。2000年代以降の動向は別に調べないといけないが、Unicode以前の世界の文字コードについて知る最初のソースとして最適だと思う。


本書を読んだことで気づき、とくに興味深く感じたことは、(特に初期の)Unicodeには元ネタがあるということだ。
Unicodeは既存の文字コードを処理するときの内部コードとして使えるように意図されており、既存の文字コードとのある程度の互換性があることが期待される。そのため、既存の符号化文字集合を取り込んでしまうというのは自然なやり方である。

例えば、インドの諸文字はISCIIと呼ばれるインドの国家規格(IS 13934)のドラフト版を元にUnicode 1.0入ったらしい(4.5節)。また、スリランカシンハラ文字はSLS 1134:1996というシンハラ文字符号表に由来するが、これはISO/IEC 10646Unicodeと同内容の国際公的標準)に組み入れることを目的として開発されたとのことだ。

シンハラ文字を入力してみると、デーヴァナーガリーなどのインドの諸文字とは入力のモデルが異なるのが感じられると思う(特にヴィラーマの扱い)。このような異なる出自の文字符号表をパッチワークのようにまとめたものであるのだから、Unicodeが用字系ごとにエンコーディングモデルがばらばらであるのも納得である。


2000年ころにはUnicode普及以前で、コンピュータで多言語を扱うことすら困難であり、ネット上にも文字や言語に関する情報は少なく、語学書も今ほど多様に出版されていなかったと思われる。その当時このような多様な文字を扱うには困難があったと推察でき、偉業と言うべきものだ。

一方で、著者は各種文字の専門家ではないようで、少なくともタイ・ミャンマー・クメール・シンハラ・モンゴル文字に誤植と思われるものを見つけた。
誤植によって本書の価値が毀損されることはないものの、文字解説については本書をあまり信頼せず、別の文献も参照した方が良さそうではある。

正誤表は著者のサイトに掲載するとなっているが、著者のサイトは消滅しているため確認できない。そのため、気になった点を以下に書いておく。

誤植と思われる点

間違いと思われる点を列挙しておく。

p.37 表1.9(さまざまなインド系文字の例) 「シンハラ」の行

දින [janadina]
දින [janadina]
備考
Janadinaという新聞名。 naを taと書き間違えている。

p.98 表2.8(タイ文字6ビット電信符号TIS 1074:2535) 「011001」行 「LS」列

備考
to(トー・タウ“亀のトー”)を kho(コー・コン“人のコー”)と間違えている。現代語において“人のコー”は全く使われないため、この2文字の区別で実際に困ることはないと思う。

p.99 7行目

タイ文字の収録範囲は,タイ数字,子音文字《》,および,いくつかの文節記号などが落ちている
タイ文字の収録範囲は,タイ数字,子音文字《》,および,いくつかの文節記号などが落ちている
備考
同前。 to(トー・タウ“亀のトー”)は日常的に用いる文字であるので、これが収録されていないというのはあり得ない。

p.118 表3.11(米国議会図書館の文字符号表USMARC)の解説

[E/0] fook above
[E/0] hook above

p.158 7-9行目

《銎》という漢字の入力にあたって,これを字の構成要素である「工」「凡」「金」の3つの文字に分解し(この部分は第1方式),それぞれの文字のアルファベット表記の先頭文字「g」「f」「j」を入力する(この部分は第2方式)
《銎》という漢字の入力にあたって,これを字の構成要素である「工」「凡」「金」の3つの文字に分解し(この部分は第2方式),それぞれの文字のアルファベット表記の先頭文字「g」「f」「j」を入力する(この部分は第1方式)
備考
第1方式が音韻的特徴、第2方式が形態上の特徴に基づくものであるから、第1方式/第2方式が逆になっているように思われる。

p.199 4.5.13項(IS 13194) 12行目

とくに脱母音記号,ヌクタ記号,LNK,EXT,ATRという5つの制御記号
とくに脱母音記号,ヌクタ記号,INV,EXT,ATRという5つの制御記号
備考
LNKはISSCII-8 (4.5.12項で説明)の符号であるから、文脈上おかしいと思われる。

p.220 6行目

通貨記号チャット(D/F)
通貨記号キープ(D/F)
備考
ラオスの通貨はキープである。通貨記号キープは、Unicode 3.0でU+20AD (₭)として通貨記号(Currency Symbols)ブロックに収録されたようだ(参考)。

p.225 図4.30(クメール文字の胴文字と脚文字の結合)

備考
កន្ត្រៃ(ハサミ)だと思われる。はリヤル記号であり、母音ではない。母音のaiは《ៃ》ではないかと思う。なお、Unicode 3.0規格書で例示されるリヤル記号はの下に縦長の棒(uの母音記号)が付いたような形になっているが、後に修正されて今の形になっていると思われる。

p.225 2行目、4行目

》 [ai]
》 [ai]
備考
同上。

p.228 図4.31(胴文字と脚文字の符号化)

例①
ស្រា … = ស + x + + ា
ស្រា … = ស + x + + ា
例③
សង្ក្រាម … = ស + ង + x + ក + x + + ា + ម
សង្ក្រាម … = ស + ង + x + ក + x + + ា + ម
備考
rを vに間違えている。この2文字もよく似ている。

p.229 4.9.1節(ミャンマーという国) 13-14行目

アウン・サン・スーチー
アウン・サン・スー・チー
備考
10行目でアウン・サン・スー・チーとなっているのでそれに合わせるべきだと思う。なお、ミャンマー人の名前は全てで1つの名前であり、姓は存在しない。そのため、「アウンサンスーチー」の表記でもよいと思われる(参考)。

p.237 図4.33(いくつかの特殊な文字)

備考
についてはこちらを参照。は見慣れないが、パーリ語サンスクリット語の母音Lを表記するものであるらしい(参考)。

p.238 表4.55(シンハラ文字の子音文字)

4行目-2列目
ta
tha
4行目-4列目
da
dha
5行目-2列目
pa
pha
5行目-4列目
ba
bha
備考
デーヴァナーガリーなどと同様、子音字に無気/有気の区別がある。

p.243 表4.61(SLS 1134における符号化表現)の例番号[11]と[12]

「例示」列では taだが、「合成結果」列では naとなっていて、矛盾している。

p.259 図5.5(ウィグル文字と蒙古文字)の「蒙古文字」

備考
小沢重男『蒙古語文語文法講義』(大学書林、1997年) p.57を参照。

p.268 表5.7(自由選択記号の機能の例示)

3行目「符号例」列
xana
xan MVS a
4行目「符号例」列
xan MVS a
xana
備考
Mongolian orthographic notesを参照。自分でいくつかの辞書を当たってみたが、ᠬᠠᠨᠠ xana ‘outer casing of a vein’の語を見つけられなかったので、詳しくはわからない。

p.284 第16行

“D”はロシア語の«ДВОИЧНЫ»の頭文字
“D”はロシア語の«ДВОИЧНЫЙ»の頭文字
備考
Двоичный код обработки информации(情報処理の2進コード)の一部なので、Двоичныйとするのが自然であると思う。なお、двоичныという形は短語尾複数形で存在する可能性があるが(参考)、用法を考えると不自然であるように思う。

p.308 図5.19(チベット文字の構造) 例①

母音記号 -- [a]
母音記号 [u]
備考
チベット文字については知識がないのだが、対応がとれていないように見える。