フィールドプラス no.18
30/36

写真5 ドットプリンター時代に作った『エクスプレス パンジャービー語』(1988年)。写真6 レーザープリンターで版下を作製した『エクスプレス ベンガル語』(1990年)。28◆いよいよ辞書作りの準備――印刷が制御できるようになったら、いよいよ辞書作りになるんでしょうか。町田 そう。辞書作りというのは、言語を学んだ人は誰でも一度は夢見るものだと思うのだけれども、大変なわけですよね。どこから始めるか考えるだけでも。ヒンディー語というのは一応大言語なものですから、いい辞書はたくさんあるんです。でも、当然ながら不備もいろいろ目につく。私ならもっとこう直したい、というのがあるわけです。 その中で、まず整備しなければならないと思ったのは、いわゆるデータベースです。ヒンディー語の良質な原文をできるだけ蓄積して、それを好きなときに好きな形で取り出すことができるような、そういうシステムを作らなければならないと思ったんです。 いい辞書を選んで翻訳する、というやり方も行われているわけですが、それでは作る本人としては面白くないなと思って、やはりオリジナリティを大事にしたかった。もちろん先達の辞書は大いに参考にはするけれども、やはり例文も自分で選びたい。ちょっと気が遠くなるような作業で、お金も時間も技術も必要だったわけなんだけれど、ちょうど先に触れたGICASという大型プロジェクトの申請が認められたの。それで辞書を作るぞと決意をして、データを集めるのにお金を使わせてもらおうと思ったわけ。――GICASのプロジェクトが始まったのが2001年ですから、パソコンの技術も相当発展していますね。町田 その頃の一番大きな変化というのは、Unicodeが一般化しはじめたということです。パソコンを買うとUnicodeに準拠したフォントが最初からバンドルされている時代になって。それを見たときに、僕が様々なプリンターと格闘してきたようなことはもう必要なくなったんだと。 でも、それまでやってきたことは徒労でもなんでもなくて。というのも僕の持っていた大事な資産であるデータはそっくりそのままでいいわけですから。僕のヒンディー語のデータは全てローマ字で書かれていて、ヒンディー語の前後には、ここから始まり、ここまででお終い、というタグが入っているので、そのタグの間の文字列をUnicodeに変換するプログラムを書けばいいだけになったんです。フォントはもうお任せすることができたわけです。テキストは好きなエディターで日本語とローマ字を使って書くだけ。 問題は出力の形式なんですが、僕は出力をHTMLにしました。◆MS-Wordで組版してしまう――それはどういうことでしょうか? HTMLというのはウェブサイトを表示するのに使われている言語ですよね?町田 そうです。ローマ字でヒンディー語が書かれていても一般の人は分からないですよね。エディターではローマ字で書くわけなんですが、それをHTMLに出力するときにデーヴァナーガリー文字で出てくるように変換するんです。だからエディターで書いたもののチェックはウェブブラウザでします。手元のエディターで修正して、HTMLに変換して、ブラウザを再読込して確認する、その繰り返しです。もう十年以上この方式でやっています。 ブラウザに出てきたものをコピーしてMS-Word(以下「ワード」)に貼り付ければ、文字もきれいに出力されるんです。後はこっちの責任ではなくてワードの能力とプリンターの性能次第ということになって、僕はそういうものから全部解放されたわけです。――町田さんがひとりで何から何までやっていた時代が終わったんですね。町田 そう。中身に集中すればよくなったわけです。ここで問題なのは、HTMLをワードにコピーしたときに、いわゆるレイアウトというか、どの程度自動的にワードがやってくれるのかということね。つまり辞書だから、例えばフォントの種類や文字のサイズが違ったり、イタリックだったり、いろいろな属性がありますよね。そういう属性をちゃんとワードの方で継承してくれないと困るわけですよ。属性を継承した上で、さらに2段組みなどにするわけです。また、ページ番号を出力するときに、そのページの最初の単語が左肩に出て、終わりの単語が右肩に出るみたいな、辞書の書式があるでしょう? そうした機能はワードが持っています。 だから、まず辞書のオリジナルのテキストを作りますよね。そして、それを変換してHTMLに吐き出して、それをブラウザで見る。見て、「うん、これでいいな」と思ったら全コピーしてワードに貼り付ける。だから、ワード上では文字入力などの編集はしないわけですよ。ワードはあくまでも整形出力のためだけに使うんです。――それは普通の人が思いつかない発想ですよ。でも、HTMLからワードにするところでは随分苦労されたのでしょうか?町田 とにかく辞書の最終出力をワードにしなければならないので、ワードに属性を継承したまま貼り付けるのに一番相性がいいのは、やはりMicrosoftのインターネット・エクスプローラーというブラウザでした。 ですが、はっきり言ってワードというのは本当の組版ソフトではないわけですよ。だからごまかしながらやるんです。なんせ千ページを超えますから、なるべく手をかけないで済むように考えました。まずまずの見栄えで、なおかつなるべく自動で済ませるにはどうしたらいいか、小

元のページ  ../index.html#30

このブックを見る