シャン語表記の文字化け
YouTubeでシャン語の動画を見ていたら、タイトルが一部文字化けしていた。

文字化けした表記と、Unicode表記が併記されていて、Unicode表記の方はある程度まともに表示されているようだ。
この化け方…なんとなくZawgyiを思い出すな?
Zawgyiについて
シャン語は主に、ミャンマー東~北部・タイ北部・中国雲南省あたりにかけて話者が多くいる。タイ語に近い言語であるが、表記に使うシャン文字はビルマ文字と似ている(一部は共通の形である)。
ビルマ語表記用にはZawgyi-One (Zawgyi)というフォントがある。これはUnicode非互換なグリフを勝手に配置したもので、実装が単純なためミャンマーのビルマ語表記用として爆発的に広まった。Zawgyiに関しては以下の記事で考察した。
nixeneko.hatenablog.com
しかし、Zawgyiではシャン語は表記できない。ではどうしていたのか?
Zawgyiを拡張し、シャン語向けの文字を追加すればよい。それがZawgyi-Taiであるようだ。
Zawgyi-Tai
Zawgyi-Taiというフォントは、まさにZawgyiを拡張したような名称である。ちなみにTai (တႆး)はシャンの自称であるので、シャン版Zawgyiというような雰囲気だ。もちろんUnicode非互換である。
ダウンロード
ここからダウンロードできる。 ZawgyiTai-2013.ttf
またはZawgyi-Tai.ttf
だと思う。ダウンロード数多いからZawgyiTai-2013.ttf
が一番使われているのかもしれない。
Zawgyi-TaiのZawgyiとの違い
基本的にはZawgyiの割り当てを変更せず、使っていない領域にシャン文字用のグリフを追加しているようだ。
Myanmar文字ブロック

ZawgyiはMyanmarブロックを使い潰しているが、Zawgyi-Taiでは空き部分にシャン文字用の文字や記号を追加している。
ZawgyiとZawgyi-Taiで異なるのは、0x1022
, 0x1028
, 0x1035
, 0x103E
, 0x103F
, 0x1050
-0x1059
, 0x105B
-0x105F
, 0x1093
, 0x1098
-0x109D
である。
チャム文字ブロック
このほか、チャム文字ブロックにも文字を配置している(なんでここに?)。

0xAA00
-0xAA03
, 0xAA05
-0xAA0E
, 0xAA11
-0xAA13
, 0xAA15
-0xAA18
, 0xAA1F
-0xAA24
, 0xAA2C
, 0xAA2E
-0xAA44
にシャン文字用のグリフが割り当てられている。
見ると、シャン語用の子音字・母音記号の一部や、声調記号・数字等がミャンマー文字ブロックとチャム文字ブロックに重複して割り当てられている。特に用途の区別がなさそうなものもあるので、表示できるから重複してても問題ないだろうという考えかと思う。
数字なんかは、ミャンマー文字ブロックへの割り当てでは分かれ分かれになってしまっているので、連続させて収録したかったとかかもしれない。
Zawgyi-Tai↔Unicodeコンバータ
いくつかありそう。
- PangLong Converter https://tawngphait.github.io/plconverter/ (GitHub repository)
Zawgyi-Taiを使ったサイトの例と他のフォント
以下のページではPanglongフォントとZawgyi-Taiフォントのインストール方法を紹介しているが、ページ全体にわたってシャン語が文字化けしている。これは、Zawgyi-Taiフォントを前提に書かれているためだと思う。
- Tai Cultures: Panglong And Zawgyi-Tai Font https://saolaofa.blogspot.com/p/zawgyi-tai-font.html
このシャン語と思われる化けた文字列を前掲のコンバータで変換すると、正しい形のUnicode表現に変換できた。
Panglongフォントについては、次のURLからダウンロードできるようで、しっかりは確認していないが大体Unicode準拠であるようだ。
シャン語のUnicode表現について
ミャンマー文字のUnicode表現をどうするかについて書かれた文書であるRepresenting Myanmar in Unicode: Details and Examples Version 4にシャン語に関するページがある(pp.41-45)。詳しくはそちらを参照(次掲のURLから読める)。
- Martin Hosken. Representing Myanmar in Unicode: Details and Examples Version 4 (UTN#11v4). https://www.unicode.org/notes/tn11/UTN11_4.pdf
一例として、長母音aaを表す ႃ U+1083 Myanmar Vowel Sign Shan Aaには、対応する脚の短い形があり、これは ၢ U+1062 Myanmar Vowel Sign Sgaw Karen Euで表すようだ。文字名はSgaw Karen語となっているが、シャン語表記にも使っている。
脚の短い形は二重母音の一部であったり、閉音節(母音の後に末子音がくる場合)で使われる。次に例を挙げる。
意味 | シャン語 | 発音 | Wiktionaryリンク |
---|---|---|---|
馬 | မႃႉ | /maː˦˨ˀ/ | မႃႉ - Wiktionary |
ビルマ | မၢၼ်ႈ | /maːn˧˧˨/ | မၢၼ်ႈ - Wiktionary |