PDAで中国語辞書_04

今回は、中国語コンバータとRTFコンバータについて書いていく。
例によって文字だらけの長文なので、興味のある方だけお付き合い頂きたい。


さて2つのコンバータだが、これはテキストorリッチテキストデータを各種コードに変換するというツールである(作者は針谷壮一さん)。
テキストデータの文字コード変換なら他のソフトウェアでも可能なのでは?と思った方、その通りなのだが先の2つのコンバータには他のソフトウェアには無い以下のメリットがある。なんと、

  • リッチテキスト形式であれば、日中混在文を変換することができる
  • 擬似中国語コードを取り扱うことができる


のである。これらはリッチテキストファイルの中の文字に対するフォント情報を参照してその文字が日中どちらの言語を想定して書かれているか判断し、各々に合ったコード変換を自動処理してくれるという代物なのだ。もちろん擬似中国語コードも「中国語として」取り扱ってくれる(すばらしい!)。


要するに、中国語の部分に中国語フォントを指定したリッチテキスト形式の日中混在文があれば、それを一発でUnicodeテキストに変換できるのである。また処理が2段階になるが擬似中国語コードからUnicodeへの変換もしてくれる(リッチテキストファイル中の擬似中国語コードの部分が正しく専用フォントに指定されている必要があるが)。


RTFコンバータは擬似中国語コードを取り扱うことができない。一方中国語コンバータは各種中国語コード(擬似含む)間のコード変換を行ってくれる。よって擬似中国語コードを使った日中混在文をUnicodeに変換したいときは、まず中国語コンバータを使って擬似部分をGB2312やBIG5に変換し、次にそれをRTFコンバータを使ってUnicode変換すればよい。これが先に擬似中国語コードをUnicodeに変換するには処理が2段階になると書いた理由である。


要するに、日中混在文を一発でUnicode変換するには正しくフォント指定されたリッチテキスト形式のデータが必要なのである。Unicode変換できれば、それをPDIC用に加工することは容易であるし、またWindows環境だけでなく色々な環境でデータが利用できるであろう。


次回は日中混在のリッチテキスト形式データを作成する手順について書こうと思う。
もう一息である。