PDAで中国語辞書_05

今回は、日中混在のリッチテキスト形式データの作成方法について書いていく。
このデータ作成がUnicode変換の一番の肝である。


さて、いきなり当たり前の説明になってしまうが、最も簡単な方法はM$-Wordを使って日本語は日本語IMEで、中国語は中国語IMEで文字入力していくことである。そうやってできたファイルをリッチテキスト形式として保存するだけでOKである。説明終わり。


・・・もっとスマートな方法は無いのか。これでは自分で一からデータ入力しなくてはならないではないか!そうである。基本的にはデータは自分で作らなくてはならないのだ!しかしそんなことをやっていては時間がいくらあっても足りない。muni62は考えた。どこかに日中混在のリッチテキスト形式のデータが無いものか・・・無かった。そんなものどこにも無かったのである。諦めるか。いや、無いものは自分で造るのがmuni62である。死んだふりをするのはまだ早い。ということでリッチテキスト形式でなくてもよいから日中混在になっているデータが無いか捜してみた。すると・・・あるにはあった。しかしそれはいわゆる擬似中国語コードを使って作成されたテキストデータであった。


このままでは使えない。あくまで中国語部分が中国語のフォントに指定された、リッチテキスト形式のデータである必要がある。そうしないと中国語コンバータで変換することができない。しかしそれを手作業でやっていくのはこれまた日が暮れる。どうする!?ふと閃いた。このデータ、中国語部分のはじめと終わりの位置に必ず特定の文字が置かれている。ということはそれをHTMLタグに置き換えてファイルそのものをHTML化すればよいではないか。HTML化すれば、確かM$-Wordで開いてリッチテキスト形式に変換して保存できたはず!ということでさっそくJPerlを使ってタグを埋め込みHTML化した後、M$-Wordにて変換、無事成功したmuni62であった。


ここまででJPerlとM$-Wordを何に使うのかが明らかになった。これらは擬似中国語コードを使った日中混在のテキストデータをリッチテキスト形式に変換するために使用するのである。変換したデータは中国語コンバータとRTFコンバータを使ってUnicode変換する。そしてそれをPDIC入力用の1行テキスト形式などに整形するのにActivePerl 5.8.6.811を使うのである。


これで作業は完了である。ここまで読まれて辞書の元データに心当たりがある奇特な方は、あくまで自己責任になるがmuni62の説明した手順で変換してみて頂きたい。PDAで利用可能な辞書データを手に入れることができるであろう。
以前10gさんが10-0-0.netでZDicとUnicode補完計画について紹介されていた。muni62が昔夢見るも諦めたPalmで日中・中日辞典を引くこともこの辞書データがあれば可能かもしれない(muni62はそれを試せる環境に無いので妄想の域を出ないのだが)。