にせねこメモ

はてなダイアリーがUTF-8じゃないので移ってきました。

Zawgyiのシャン語拡張: Zawgyi-Tai

シャン語表記の文字化け

YouTubeでシャン語の動画を見ていたら、タイトルが一部文字化けしていた。

YouTubeのシャン語動画のタイトルとキャプションが一部文字化けしている https://www.youtube.com/watch?v=3B-HUIr2Zt0

文字化けした表記と、Unicode表記が併記されていて、Unicode表記の方はある程度まともに表示されているようだ。

この化け方…なんとなくZawgyiを思い出すな?

Zawgyiについて

シャン語は主に、ミャンマー東~北部・タイ北部・中国雲南省あたりにかけて話者が多くいる。タイ語に近い言語であるが、表記に使うシャン文字ビルマ文字と似ている(一部は共通の形である)。

ビルマ語表記用にはZawgyi-One (Zawgyi)というフォントがある。これはUnicode非互換なグリフを勝手に配置したもので、実装が単純なためミャンマービルマ語表記用として爆発的に広まった。Zawgyiに関しては以下の記事で考察した。
nixeneko.hatenablog.com


しかし、Zawgyiではシャン語は表記できない。ではどうしていたのか?
Zawgyiを拡張し、シャン語向けの文字を追加すればよい。それがZawgyi-Taiであるようだ。

Zawgyi-Tai

Zawgyi-Taiというフォントは、まさにZawgyiを拡張したような名称である。ちなみにTai (တႆး)はシャンの自称であるので、シャン版Zawgyiというような雰囲気だ。もちろんUnicode非互換である。

ダウンロード

ここからダウンロードできる。 ZawgyiTai-2013.ttfまたはZawgyi-Tai.ttfだと思う。ダウンロード数多いからZawgyiTai-2013.ttfが一番使われているのかもしれない。

Zawgyi-TaiのZawgyiとの違い

基本的にはZawgyiの割り当てを変更せず、使っていない領域にシャン文字用のグリフを追加しているようだ。

Myanmar文字ブロック
Zawgyi-TaiのMyanmar文字ブロックへのグリフ割当て

ZawgyiはMyanmarブロックを使い潰しているが、Zawgyi-Taiでは空き部分にシャン文字用の文字や記号を追加している。

ZawgyiとZawgyi-Taiで異なるのは、0x1022, 0x1028, 0x1035, 0x103E, 0x103F, 0x1050-0x1059, 0x105B-0x105F, 0x1093, 0x1098-0x109Dである。

  • 0x1022 ဢ はUnicode 5.1以降と共通である(U+1022 Myanmar Letter Shan A)。
  • 0x1093に関してはZawgyiで別の記号が収録されていたが、シャン数字の3に変更されている。これは数字を入れる場所が足りなかったからかもしれない。
  • 0x109E-0x109Fに関しては、Zawgyi-Tai.ttfでは未定義、ZawgyiTai-2013.ttfではUnicodeと同じ記号が入っているようだ。
チャム文字ブロック

このほか、チャム文字ブロックにも文字を配置している(なんでここに?)。

Zawgyi-TaiのCham文字ブロックへのグリフ割当て

0xAA00-0xAA03, 0xAA05-0xAA0E, 0xAA11-0xAA13, 0xAA15-0xAA18, 0xAA1F-0xAA24, 0xAA2C, 0xAA2E-0xAA44にシャン文字用のグリフが割り当てられている。

見ると、シャン語用の子音字・母音記号の一部や、声調記号・数字等がミャンマー文字ブロックとチャム文字ブロックに重複して割り当てられている。特に用途の区別がなさそうなものもあるので、表示できるから重複してても問題ないだろうという考えかと思う。

数字なんかは、ミャンマー文字ブロックへの割り当てでは分かれ分かれになってしまっているので、連続させて収録したかったとかかもしれない。

Zawgyi-Tai↔Unicodeコンバータ

いくつかありそう。

Zawgyi-Taiを使ったサイトの例と他のフォント

以下のページではPanglongフォントとZawgyi-Taiフォントのインストール方法を紹介しているが、ページ全体にわたってシャン語が文字化けしている。これは、Zawgyi-Taiフォントを前提に書かれているためだと思う。

このシャン語と思われる化けた文字列を前掲のコンバータで変換すると、正しい形のUnicode表現に変換できた。

Panglongフォントについては、次のURLからダウンロードできるようで、しっかりは確認していないが大体Unicode準拠であるようだ。

シャン語のUnicode表現について

ミャンマー文字Unicode表現をどうするかについて書かれた文書であるRepresenting Myanmar in Unicode: Details and Examples Version 4にシャン語に関するページがある(pp.41-45)。詳しくはそちらを参照(次掲のURLから読める)。


一例として、長母音aaを表す ႃ U+1083 Myanmar Vowel Sign Shan Aaには、対応する脚の短い形があり、これは ၢ U+1062 Myanmar Vowel Sign Sgaw Karen Euで表すようだ。文字名はSgaw Karen語となっているが、シャン語表記にも使っている。

脚の短い形は二重母音の一部であったり、閉音節(母音の後に末子音がくる場合)で使われる。次に例を挙げる。

意味 シャン語 発音 Wiktionaryリンク
မႃႉ /maː˦˨ˀ/ မႃႉ - Wiktionary
ビルマ မၢၼ်ႈ /maːn˧˧˨/ မၢၼ်ႈ - Wiktionary

まとめ

  • Unicodeが普及する前、ネット上でのシャン文字の表記にはZawgyi-Taiフォントが使われていたようだ。
  • Zawgyi-Taiフォントはビルマ語用のZawgyiフォントを拡張したものである。
  • 一部チャム文字用のUnicodeブロックを使っているため、ミャンマー文字とチャム文字がごちゃ混ぜの文字列はZawgyi-Taiである可能性がある。

その他関連文献