三上 喜貴『文字符号の歴史 ―アジア編―』(共立出版、2002年)を読んだ。
www.kyoritsu-pub.co.jp
Unicode以前のアジアの文字コードについてまとめられた大著である。アジア編と題しているが、文字の種類ならアジアが世界の地域で最大なので、カバーする範囲はめちゃくちゃ広い。
本書では活版印刷・タイプライター・電信から始まり、電算処理の需要からASCIIなどの文字コードが作成され、文字コードが多言語に拡大されていく流れを描き出している。2000年代以降の動向は別に調べないといけないが、Unicode以前の世界の文字コードについて知る最初のソースとして最適だと思う。
本書を読んだことで気づき、とくに興味深く感じたことは、(特に初期の)Unicodeには元ネタがあるということだ。
Unicodeは既存の文字コードを処理するときの内部コードとして使えるように意図されており、既存の文字コードとのある程度の互換性があることが期待される。そのため、既存の符号化文字集合を取り込んでしまうというのは自然なやり方である。
例えば、インドの諸文字はISCIIと呼ばれるインドの国家規格(IS 13934)のドラフト版を元にUnicode 1.0入ったらしい(4.5節)。また、スリランカのシンハラ文字はSLS 1134:1996というシンハラ文字符号表に由来するが、これはISO/IEC 10646(Unicodeと同内容の国際公的標準)に組み入れることを目的として開発されたとのことだ。
シンハラ文字を入力してみると、デーヴァナーガリーなどのインドの諸文字とは入力のモデルが異なるのが感じられると思う(特にヴィラーマの扱い)。このような異なる出自の文字符号表をパッチワークのようにまとめたものであるのだから、Unicodeが用字系ごとにエンコーディングモデルがばらばらであるのも納得である。
2000年ころにはUnicode普及以前で、コンピュータで多言語を扱うことすら困難であり、ネット上にも文字や言語に関する情報は少なく、語学書も今ほど多様に出版されていなかったと思われる。その当時このような多様な文字を扱うには困難があったと推察でき、偉業と言うべきものだ。
一方で、著者は各種文字の専門家ではないようで、少なくともタイ・ミャンマー・クメール・シンハラ・モンゴル文字に誤植と思われるものを見つけた。
誤植によって本書の価値が毀損されることはないものの、文字解説については本書をあまり信頼せず、別の文献も参照した方が良さそうではある。
正誤表は著者のサイトに掲載するとなっているが、著者のサイトは消滅しているため確認できない。そのため、気になった点を以下に書いておく。
誤植と思われる点
間違いと思われる点を列挙しておく。
p.37 表1.9(さまざまなインド系文字の例) 「シンハラ」の行
- 誤
- ජතදින [janadina]
- 正
- ජනදින [janadina]
- 備考
- Janadinaという新聞名。න naをත taと書き間違えている。
p.98 表2.8(タイ文字6ビット電信符号TIS 1074:2535) 「011001」行 「LS」列
- 誤
- ฅ
- 正
- ต
- 備考
- ต to(トー・タウ“亀のトー”)をฅ kho(コー・コン“人のコー”)と間違えている。現代語においてฅ“人のコー”は全く使われないため、この2文字の区別で実際に困ることはないと思う。
p.99 7行目
- 誤
- タイ文字の収録範囲は,タイ数字,子音文字《ต》,および,いくつかの文節記号などが落ちている
- 正
- タイ文字の収録範囲は,タイ数字,子音文字《ฅ》,および,いくつかの文節記号などが落ちている
- 備考
- 同前。ต to(トー・タウ“亀のトー”)は日常的に用いる文字であるので、これが収録されていないというのはあり得ない。
p.118 表3.11(米国議会図書館の文字符号表USMARC)の解説
- 誤
- [E/0] fook above
- 正
- [E/0] hook above
p.158 7-9行目
- 誤
- 《銎》という漢字の入力にあたって,これを字の構成要素である「工」「凡」「金」の3つの文字に分解し(この部分は第1方式),それぞれの文字のアルファベット表記の先頭文字「g」「f」「j」を入力する(この部分は第2方式)
- 正
- 《銎》という漢字の入力にあたって,これを字の構成要素である「工」「凡」「金」の3つの文字に分解し(この部分は第2方式),それぞれの文字のアルファベット表記の先頭文字「g」「f」「j」を入力する(この部分は第1方式)
- 備考
- 第1方式が音韻的特徴、第2方式が形態上の特徴に基づくものであるから、第1方式/第2方式が逆になっているように思われる。
p.199 4.5.13項(IS 13194) 12行目
p.220 6行目
p.225 図4.30(クメール文字の胴文字と脚文字の結合)
p.225 2行目、4行目
- 誤
- 《៛》 [ai]
- 正
- 《ៃ》 [ai]
- 備考
- 同上。
p.228 図4.31(胴文字と脚文字の符号化)
例①
- 誤
- ស្រា … = ស + x + វ + ា
- 正
- ស្រា … = ស + x + រ + ា
例③
- 誤
- សង្ក្រាម … = ស + ង + x + ក + x + វ + ា + ម
- 正
- សង្ក្រាម … = ស + ង + x + ក + x + រ + ា + ម
- 備考
- រ rをវ vに間違えている。この2文字もよく似ている。
p.229 4.9.1節(ミャンマーという国) 13-14行目
- 誤
- アウン・サン・スーチー
- 正
- アウン・サン・スー・チー
- 備考
- 10行目でアウン・サン・スー・チーとなっているのでそれに合わせるべきだと思う。なお、ミャンマー人の名前は全てで1つの名前であり、姓は存在しない。そのため、「アウンサンスーチー」の表記でもよいと思われる(参考)。
p.238 表4.55(シンハラ文字の子音文字)
4行目-2列目
- 誤
- ථ ta
- 正
- ථ tha
4行目-4列目
- 誤
- ධ da
- 正
- ධ dha
5行目-2列目
- 誤
- ඵ pa
- 正
- ඵ pha
5行目-4列目
- 誤
- භ ba
- 正
- භ bha
- 備考
- デーヴァナーガリーなどと同様、子音字に無気/有気の区別がある。
p.243 表4.61(SLS 1134における符号化表現)の例番号[11]と[12]
「例示」列ではත taだが、「合成結果」列ではන naとなっていて、矛盾している。
p.268 表5.7(自由選択記号の機能の例示)
3行目「符号例」列
- 誤
- xana
- 正
- xan MVS a
4行目「符号例」列
- 誤
- xan MVS a
- 正
- xana
- 備考
- Mongolian orthographic notesを参照。自分でいくつかの辞書を当たってみたが、ᠬᠠᠨᠠ xana ‘outer casing of a vein’の語を見つけられなかったので、詳しくはわからない。
p.284 第16行
- 誤
- “D”はロシア語の«ДВОИЧНЫ»の頭文字
- 正
- “D”はロシア語の«ДВОИЧНЫЙ»の頭文字
- 備考
- Двоичный код обработки информации(情報処理の2進コード)の一部なので、Двоичныйとするのが自然であると思う。なお、двоичныという形は短語尾複数形で存在する可能性があるが(参考)、用法を考えると不自然であるように思う。