平成の次の新元号の文字列を取得するコード

※これはネタですが、エイプリルフールとは無関係です。

もしや、U+32FFをNFKDで分解することによって、今でも「新元号の文字列を取得する」コードが書ける……!? (Unicode正規化用のライブラリを更新すれば正しい結果が帰る様になる…はず)
— にせねこ (@nixeneko) 2018年3月3日

まず実用性はないのだが、新元号の文字列を取得するJavascriptコードを思いついたので書いておく。

新元号 = "㋿".normalize("NFKD");

今は何も意味のあるものは得られないが、新元号が発表されてしばらくすれば、最新のブラウザで上記のコードを実行すると新元号を表す文字列が取得できるようになるはずである。

実行例:

何をやっているのか

去年の12月に、日本のNational Bodyから、(「㍾」「㍽」「㍼」「㍻」のように)新元号の合字の独立したコードポイントを、古いITシステムのためにBMP内*1に確保してくれという要請が出された。

http://www.unicode.org/L2/L2017/17429-sc2-n4577-japan-new-era.pdf

これに対し、Unicodeコンソーシアムは、U+32FFを新元号として確保するようにした。

http://www.unicode.org/L2/L2018/18056-future-adds.pdfの7. Enclosed CJK Letters and Months参照

つまり、U+32FF “㋿”は新元号が発表された後、(フォントが対応すると)新元号で表示されるようになり、Unicodeにも正式に採録されるだろうと考えられる。
一方でUnicodeは、検索などの利便性のために、Unicode正規化という仕組みを用意している。この仕組みを利用すると、例えば「平成」で検索して「㍻」をヒットさせることができる。正規化の挙動はUnicode Character Database (UCD)として提供されている。

この仕組みを利用して、"㍻"から"平成"が得られる。

heisei = "㍻".normalize("NFKD"); //"平成"が返る

実行例:

同様に新元号“㋿”についても、ブラウザの利用するUCDが新元号の分解に対応したものに更新された暁には、Unicode正規化を利用して新元号を表す文字列が取得できる様になるはずである。

とはいっても、新元号が発表されてからUCDの新版が出るまではラグがあるはずであり、結局はUCDが対応するより前に手動で対応することになるのだと思う。そもそも、UCDの更新を行っていないシステムもあるだろうので、あまり期待しない方がよさそうである。

*1:U+0000～U+FFFF。UTF-16でサロゲートペアを使わずに表現できる範囲。

にせねこメモ

はてなダイアリーがUTF-8じゃないので移ってきました。

平成の次の新元号の文字列を取得するコード

何をやっているのか