※「セキュリティ保護のため...」というメッセージが出る方・日本語が入力できない方へ
文字サーバー?
ところで、実際問題として、ほんとうは文字コードというのはどのくらい 必要なのだろうか?? 例えば私たちが時々困まるような文字、「土」に点が1個付いているの (高校の担任の名前に含まれていた)とか「徳」に横棒が1本入っている の(これも知人に複数いる)とか、こういう文字は unicodeにも入ってい る。しかし「博」の点が無い文字(これも昔の知り合いにいた)とか「曙」 の点のある文字(横綱曙の昔のしこ名)なんてのは、ずいぶん探してみた のだが文字鏡にも未収録のようである。 こういう異体字は気にしない人は「普通の字でいいじゃん」と思うのだが、 自分の名前などに入っていると、すごくこだわるようである。私も年賀状を ワープロで印刷していた時代はこの手の文字が入っている知人のために外字 を作っていた。 漢字の文字数について、何人か手近な人に聞いてみたところでは、だいたい の意見として「多分20〜30万文字くらいでは」といったところのよう。だと すると、文字鏡プロジェクトはその半分くらいを収録したことになるのだろ うか。 ところで文字鏡は漢字に整理番号は打っているが、これが「文字鏡コード」 というわけではなく、コードは定めないという方針らしい。これはいい態度 だと思う。 当面の間、日本語のコードはシフトJISを作ったマイクロソフトがWindowsNT, Windows98以降unicodeに来ているので、Windows系はunicode, UNIX系はEUCと いう状態で当面進行しそうである。当然両者のコード体系には関連性が全く ないから、巨大な変換テーブルで変換する必要がある。 ただ私が少し疑問があるのは、漢字はほんとうに全てをコード化する必要が あるのだろうか?という点である。例えば unicode 德 という文字は 「徳に横棒が1本多い奴」と言った方がすっきりするような気もする。この 手の異体字は全てを拾っていこうとすると、キリがないのではないかという 気もする。なにか「○に点のある奴」とか、そういった直観的な表現を許す ようなコード体系というものは作れないものだろうか。 そうすれば、たまたま異体字がどこのコード表にも収録されていないという 場合も、そういう表現で、該当の文字をコンピュータの世界に載せることが できる。ただその場合も「鶇」と「鶫」みたいな区別しにくい文字をどう言 い分けていくかというのは、一筋縄では行かない問題で、何かもうひとつ、 発想の転換が必要なような気がしている。 ひとつの手としては、文字の字体サーバーの標準規格を決めてしまい、例え ば unicodeの文字サーバー、EUCの文字サーバー、文字鏡の文字サーバー、 e漢字の文字サーバー、とか、そういった多数の文字サーバーが稼動している 環境というのを考える。 すると、漢字を書きたい人は、みな好きなサーバーのコード体系を使って、 漢字を書いていけばよいのである。そして何なら各自が自分で文字サーバー を立ち上げ、そこから足りない文字を供給するというシステムも考えられな いことではない。 もしそういう時代が来たら、もうJISの漢字コードは数ある文字サーバーの ひとつにすぎなくなる。 文字サーバーに必要と思われる要件は下記の通りである。 ●インターネット上で認証無しで常時参照できるエリアに存在すること。 ●各文字コードに対する画像を最低1個以上の解像度のドットイメージ で維持し、GIF(orPNG)またはJPEGで供給できること。可能であれば TrueTypeかPostScriptのフォントデータも供給できると良い。 (「friend」サーバーにリダイレクトしてもよい。但しリダイレクト のリダイレクトは不可とする) ●各文字コードが、どこかの「friend」文字サーバーのコード体系に 含まれている場合は、そのコードを返せる。複数のfriendに含まれ ている場合は、そのリストを返せる。 ●サーバー内の異体字情報を持ち、その文字の異体字のリストを常に 返せること。 特に重要なのは3番目と4番目の要項で、それにより別の種類の文字サー バーを使用した文書の照合が可能になります。friendは「親」と言い替え てもいいです。 (上記の条件は当然、自前でサーバーを持つ人だけでなく、プロバイダと 契約してスペースを借りてサイトを運用している人でも実現できます。) (ブラウザが文字サーバーに対応してくれて、METAタグで character_server=http://chara.ffortune.net/gif base_char=unicode とか指定できると面白い。それで 文中で &376528; とか書いたら実際 には img src=http://chara.ffortune.net/gif/376528.gif と解釈して くれる、という仕組みである)