第五回多言語組版研究会 2003/6/9 (アンテナハウスKK. セミナー・ルーム)
峰岸 真琴 東京外国語大学 アジア・アフリカ言語文化研究所
http://www3.aa.tufs.ac.jp/~mmine/index-j.html
タイ語,ラオス語,カンボジア語の文字は同系統に属し,文字を使って表示する方法に,次のような類似の特徴があります。
1. ひとつの音節が,子音文字,母音記号,声調記号等の記号の組み合わせで表示されます。
2. 発音順と表示用のグリフの並び順が,一致しません。
3. 発音の音素と文字のグリフが1対1対応でないことがあります。
このため,コンピュータ処理する時,次のような問題が発生します。
A. 文字と記号の入力順序を発音順にするか,表示順にするか。
B. 配列の順序をどうしたら良いか。
C. 単語の区切りを見つけたり,単語を配列するための辞書をどのように作るか。
これらについて,情報処理技術者の認識を深めるような説明をします。
これらの言語は,コンピュータによる文字処理の歴史が違い,おかれている現状が異なります。講義では,現状に触れるとともに,関連してAA研で行っているプロジェクトをご紹介します。
また,行組版という点では,改行位置の決定(ワードラップ)法,ジャスティフィケーションの方法,ハイフネーション処理などに,他の言語と異なる工夫が必要となります。これらの課題について解説します。
言語の系統と文字の系統は別のものです。東南アジア大陸部の言語のうち,言語系統としてはタイ語(シャム語),ラオス語(ラオ語)はタイ・カダイ諸語に属し,互いによく似ていますが,カンボジア語(クメール語)はオーストロアジア語族のうちのモン・クメール語族に属しています。また,ビルマ語(ミャンマー語)は,チベット・ビルマ語族に,ベトナム語はモン・クメール語族に分類されます。
文字の使用は文化の伝播と関係しています。東南アジア大陸部は歴史的に南インドとの関係が深く,紀元前後にはモン人(現在はミャンマー南部に多く住む)とクメール人とがインドの影響を受けて,モン文字,クメール文字の原形が使われるようになりました。モン文字からビルマ文字が生まれ,クメール文字からタイ文字,ラオス文字が生まれました。
タイ文字,ラオス文字,クメール文字などの東南アジア大陸部の文字は,以下のような南インド系文字の古い特徴を共有しています。
この他の共通点として,複合語や句といった,単語より大きな単位(日本語なら読点を付す単位にほぼ相当するもの)の間に,明示的なスペースが置かれます。
また,インドでは独立母音字であったa が,東南アジアの文字の多くでゼロ子音字として用いられることも,インドの文字とは異なる東南アジア独特の用法ですインド系文字とはいっても,aの持つ独立母音字としての機能と子音記号としての機能という,東南アジア独自の二重性を理解していなかったため,unicodeのクメール文字では,同一のグリフaに2つのコード(u17A2, u17A3)を与える誤りが生じたようです。現在,後者は使わないように強く勧められています。
クメール文字の実際の字形とユニコードについては,以下のサイトのKhmer (Range:1780-17FF)を参照してください。
http://www.unicode.org/charts/
カンボジアの首都であるプノンペン(PhnomPenh)という単語を例にとって,文字の構成を見てみましょう。
例:プノンペンの文字構成(クメール文字)
この単語を表す文字をローマ字に対応させると,以下のようになります。
例:プノンペンの文字構成(ローマ字)
ph と n という,二つの子音が連続(子音連続)する場合,第二子音(この場合 n)は,独立した子音字ではなく,子音文字ph の下に脚文字で書かれています。
母音記号 om は,子音字ph の上に書かれる記号です。
penh の母音記号eは,子音字の左側に書かれる記号です。
ここで,子音字をCで,特に子音連続の第一子音をC_1で,第二子音をC_2で,特に第二子音あるいは第三子音としてのrをC_rで,母音記号をVで,子音字の左に置かれる母音記号をV_Lで,右に置かれる母音記号をV_Rで,下に置かれる母音記号をV_Bで,上に置かれる母音記号をV_Tで,その他の上付き記号をMで表すと,以下のような音節の構成例を挙げることができます。
クメール文字の構成例 1
ただし,下の破線は文字のベースライン,上の破線は一般的な子音字の高さを示すものとします。(子音字には,例外的に他の文字より高いものもあります。)
C_2の内部の実線は,C_2には下だけに書かれるものと,文字の右側にまではみ出すものがあることを示し, V_Rの内部の2本の実線は,V_Rには子音字の右横に,子音字と同じ高さで書かれるものと,子音字の右下から,右横,右上を囲むように書かれるものがあることを示しています。
子音連続の中で,2番目,3番目のr だけが,子音字の左側から下の位置に置かれます。
子音が3つの子音連続では,一般に3つめの子音はC_rです。(古風な書き方には,r以外の第三子音が書かれるような例外もあります。)
脚文字C_2 には,C_1の下に書かれるものと,C_1の下から右の位置に置かれるものがあります。後者はさらに右側に来る母音記号と結合します。
以下はC_2, C_rがともに存在しない場合の構成例の一部です。V_BがC_2, C_rのない分だけ,上の位置に書かれます。
クメール文字の構成例 2
以下は,C_rだけがある場合と,C_2, C_rが存在しないC_1だけの場合とを比べたものの例です。最終的には,母音記号がない場合でも,ゼロ母音記号がついたものとして(内在母音がある,と表現される)/OO{/の母音を伴って読まれます。
母音記号がない場合,発音上は,独立した音節として/OO/の母音を伴って読まれる場合と,前の音節に引き続く音節末子音として読まれる場合とがあることになります。(文字上の音節単位をAkshara と呼ぶと,Aksharaと発音上の音節単位であるsyllable は異なります。クメール文字の上記の場合,1 Akshara =1 syllable の場合と,2 Akshara = 1 syllable の場合があることになります。)
クメール文字の構成例 3
タイ文字はクメール文字をもとに作られました。
タイ文字の実際の字形については,Unicode のThai (Range:0E00-0E7F)を参照してください。
タイ文字のユニコードは,旧い規格であるTIS (Thai Industrial Standard)を継承しているため,上記のような、ひとつの音素が複数の母音記号および子音字の組み合わせからなる場合には,クメール文字の場合と違って独立したコードを与えられていません。(au = SARA E + SARA AA, ia = SARA E + SARA II + CHAR YO YAK など)これは今後のソーティング、ワードラップなどのテキスト処理においての大きな障害となる可能性があります。発音上の母音音素と文字上のグリフの単位が一致しないためです。
以下では,クメール文字と同様に,タイ文字の音節の構成例を挙げておきます。
ただし,V_C は,上に述べた,本来の子音字を,母音記号としてあるいは組み合わせ母音記号の一部として用いる場合を示します。
タイ文字の構成例 1
タイ文字の構成例 2
ラオス文字の字形については、UnicodeのLao (Range:0E80-0EFF)を参照してください。
ラオス文字のUnicode は、TIS 620-2529に基づいています。(Lao 0E81による。)
ラオス文字は以下のような特徴を持っています。
以上のラオス文字の特徴は,タイ語と多くの共通点を持っていること,発音上はタイ語よりも子音連続が減少したという言語上の特徴が反映していること,さらに社会主義体制下で,綴り字が簡略化されたこと,一部に残された子音連続の結合文字による表記法は,クメール語の脚文字による表記と類似点を持つこと,これらの点で,タイ語とクメール語の中間的な特徴を持っていますが,よりタイ文字表記に近いものです。
以下の文字構成法も,タイ語とほぼ共通しています。
ラオス文字の構成法
文字とその印刷に関しては,活字とタイプライタに比較的豊富な経験を持つタイ,両者とも経験したが,印刷,出版があまり盛んでなかったクメール,タイプライタもほとんど使われていなかったラオスという歴史が反映しています。特に,タイプライタは文字に関する審美眼に大きく影響をするようです。
以下には,これらの文字体系に共通する問題を挙げておきます。
以下に,タイのコンピュータ版下による雑誌から,ジャスティフィケーションの例を挙げます。
タイ文字印刷見本
拡大すると,下の方の行は文字間が大きくあいて,美しいとは言えません。
タイ文字印刷見本
峰岸真琴 1996. 『タイ語の発音と文字』,東京外国語大学アジア・アフリカ言語文化研究所.
鈴木玲子&ポーンケオ・チャンタマリー 1999.『エクスプレスラオス語』, 白水社.
上田広美『エクスプレス カンボジア語』, 白水社.