Skip to content
2010/08/01 / highmt

「プログラマのための文字コード技術入門」

を読みました。(ISBN978-4-7741-4164-0)

どろどろの世界の一端に触れることができます。
まったく知らない人や、ある程度知っていて整理をしておきたい人にはいい本だと思います。

仕様などの詳しいことを知りたい人は別途資料にあたるのがよいようです。

最近の話として、Ruby1.9での文字コードの扱いとか、Unicodeへの絵文字の取り込みの話とかに
ちょっと触れています。

文字鏡やCHISEなどの斜めな方向の話は載っていません。

参考文献としていくつかあがっているのですが、

「文字コードの世界」(ISBN4-501-53060-X)
「日本語情報処理」(ISBN4-89052-708-7)

相当前に買ったこのあたりの本があがってくるあたり、
この分野で(一般の人が)読める資料はなかなか少ないのかなと思いました。

個人的には、もともと、「文字は閉じた集合である」という前提が間違っているような気がするので、

プレーンテキストでは文字の厳密な運用をするのは諦めて、
「印刷(見た目)が意図したとおりである」とか
「文献などで使用されている文字が何であるかを厳密に同定する」とかの
追求したい領域とレベルに応じて専用の表現をするしかないのかな、と思います。
それだけ手間はかかるとは思いますが…

いろんな表現がされているために検索漏れが生じる、という話は、
多言語版migemo的なものがあるといいなと思いました。

ファイルシステム上のファイル名に使用できる文字を増やすのも、
無理してやらなくてもよかったんじゃないかと思いました。
TRONみたく、ファイル名が単なるラベルに過ぎず、ファイル名の同じファイルがいくつあってもかまわない、
という状況だったらよいと思いますが…

とはいえ、基礎になるのはやっぱり文字コードですし、
今、実際上ほとんど問題にならないくらいコンピュータで日本語を扱えているのは、
この、素人がちょっと考えて済むようなものではない
本当に複雑な問題の解決に向けてがんばってきた方々のおかげです。
尊敬すると同時に、これからもがんばっていただきたいなと思いました。

広告
%d人のブロガーが「いいね」をつけました。