タイ語,ラオス語,カンボジア語(クメール語)の文字処理と組版における課題

第五回多言語組版研究会 2003/6/9 (アンテナハウスKK. セミナー・ルーム)

峰岸 真琴 東京外国語大学 アジア・アフリカ言語文化研究所

http://www3.aa.tufs.ac.jp/~mmine/index-j.html

はじめに

タイ語,ラオス語,カンボジア語の文字は同系統に属し,文字を使って表示する方法に,次のような類似の特徴があります。

1. ひとつの音節が,子音文字,母音記号,声調記号等の記号の組み合わせで表示されます。

2. 発音順と表示用のグリフの並び順が,一致しません。

3. 発音の音素と文字のグリフが1対1対応でないことがあります。

このため,コンピュータ処理する時,次のような問題が発生します。

A. 文字と記号の入力順序を発音順にするか,表示順にするか。

B. 配列の順序をどうしたら良いか。

C. 単語の区切りを見つけたり,単語を配列するための辞書をどのように作るか。

これらについて,情報処理技術者の認識を深めるような説明をします。

これらの言語は,コンピュータによる文字処理の歴史が違い,おかれている現状が異なります。講義では,現状に触れるとともに,関連してAA研で行っているプロジェクトをご紹介します。

また,行組版という点では,改行位置の決定(ワードラップ)法,ジャスティフィケーションの方法,ハイフネーション処理などに,他の言語と異なる工夫が必要となります。これらの課題について解説します。

タイ,ラオス,クメール文字の特徴

言語の系統と文字の系統は別のものです。東南アジア大陸部の言語のうち,言語系統としてはタイ語(シャム語),ラオス語(ラオ語)はタイ・カダイ諸語に属し,互いによく似ていますが,カンボジア語(クメール語)はオーストロアジア語族のうちのモン・クメール語族に属しています。また,ビルマ語(ミャンマー語)は,チベット・ビルマ語族に,ベトナム語はモン・クメール語族に分類されます。

文字の使用は文化の伝播と関係しています。東南アジア大陸部は歴史的に南インドとの関係が深く,紀元前後にはモン人(現在はミャンマー南部に多く住む)とクメール人とがインドの影響を受けて,モン文字,クメール文字の原形が使われるようになりました。モン文字からビルマ文字が生まれ,クメール文字からタイ文字,ラオス文字が生まれました。

文字体系上の共通点

タイ文字,ラオス文字,クメール文字などの東南アジア大陸部の文字は,以下のような南インド系文字の古い特徴を共有しています。

  1. 左から右に横書きされる。
  2. 子音字を中心に母音記号を上下左右に配置する「音節文字」である。
  3. 子音字の文字幅は,文字によって大きく異なる。(プロポーショナル)
  4. 単語が分かち書きされない。(現代インド文字は単語で分かち書きされる。)
  5. e などを表す文字(e, ae, ai)が,子音字の左側に書かれる。

この他の共通点として,複合語や句といった,単語より大きな単位(日本語なら読点を付す単位にほぼ相当するもの)の間に,明示的なスペースが置かれます。

また,インドでは独立母音字であったa が,東南アジアの文字の多くでゼロ子音字として用いられることも,インドの文字とは異なる東南アジア独特の用法ですインド系文字とはいっても,aの持つ独立母音字としての機能と子音記号としての機能という,東南アジア独自の二重性を理解していなかったため,unicodeのクメール文字では,同一のグリフaに2つのコード(u17A2, u17A3)を与える誤りが生じたようです。現在,後者は使わないように強く勧められています。

各文字固有の特徴

クメール文字の特徴

クメール文字の実際の字形とユニコードについては,以下のサイトのKhmer (Range:1780-17FF)を参照してください。

http://www.unicode.org/charts/

  1. 子音文字(33字,他にサンスクリット語用 '{s (LETTER SHA), d{s (LETTER SSO)の2字)のほかに,子音連続の第二子音,第三子音を表すための「脚(あし)」がある。脚は南インド系文字以来の特徴。
  2. 母音記号のうち,e, E, ai (VOWEL SIGN E, AE, AI)が子音字の左側に書かれる。
  3. 母音記号のうち,o, au, W{a, ia (VOWEL SIGN OO, AU, YA, IE)が子音字の左側に書かれる e と,右側に書かれる部品との組み合わせ文字である。ただし,クメール語の場合組み合わせの右側の部品には,aa のように,独立した母音記号である場合(e+aa=o)と,単独では音価を持たない「部品」である場合とがある。
  4. 母音記号のうち,(VOWEL SIGN OE, u17BE) は子音字の左側に書かれる e (u17C1)と,上に書かれる(VOWEL SIGN II, u17B8)との組み合わせ文字(e+ii= OE)である。
  5. 母音記号のうち,uM は子音字の上 am (SIGN NIKHAHIT, u17C6) と,下に書かれるu (u17BB)との組み合わせ文字である。Unicodeでは記号と母音字の組み合わせと解釈されています。
  6. 子音文字の一部と,その右側に来る母音文字の一部(={a, o, au, u17B6, u17C4, u17C5)とは,形の上で結合する。(cf. ローマ字のf+i=fi)
  7. 同様に,脚文字の一部と,その右側に来る母音文字の一部(={a, o, au, u17B6, u17C4, u17C5)とは,形の上で結合する。

カンボジアの首都であるプノンペン(PhnomPenh)という単語を例にとって,文字の構成を見てみましょう。

例:プノンペンの文字構成(クメール文字)

この単語を表す文字をローマ字に対応させると,以下のようになります。

例:プノンペンの文字構成(ローマ字)

ph と n という,二つの子音が連続(子音連続)する場合,第二子音(この場合 n)は,独立した子音字ではなく,子音文字ph の下に脚文字で書かれています。

母音記号 om は,子音字ph の上に書かれる記号です。

penh の母音記号eは,子音字の左側に書かれる記号です。

ここで,子音字をCで,特に子音連続の第一子音をC_1で,第二子音をC_2で,特に第二子音あるいは第三子音としてのrをC_rで,母音記号をVで,子音字の左に置かれる母音記号をV_Lで,右に置かれる母音記号をV_Rで,下に置かれる母音記号をV_Bで,上に置かれる母音記号をV_Tで,その他の上付き記号をMで表すと,以下のような音節の構成例を挙げることができます。

クメール文字の構成例 1

 

ただし,下の破線は文字のベースライン,上の破線は一般的な子音字の高さを示すものとします。(子音字には,例外的に他の文字より高いものもあります。)

C_2の内部の実線は,C_2には下だけに書かれるものと,文字の右側にまではみ出すものがあることを示し, V_Rの内部の2本の実線は,V_Rには子音字の右横に,子音字と同じ高さで書かれるものと,子音字の右下から,右横,右上を囲むように書かれるものがあることを示しています。

子音連続の中で,2番目,3番目のr だけが,子音字の左側から下の位置に置かれます。

子音が3つの子音連続では,一般に3つめの子音はC_rです。(古風な書き方には,r以外の第三子音が書かれるような例外もあります。)

脚文字C_2 には,C_1の下に書かれるものと,C_1の下から右の位置に置かれるものがあります。後者はさらに右側に来る母音記号と結合します。

以下はC_2, C_rがともに存在しない場合の構成例の一部です。V_BがC_2, C_rのない分だけ,上の位置に書かれます。

クメール文字の構成例 2

以下は,C_rだけがある場合と,C_2, C_rが存在しないC_1だけの場合とを比べたものの例です。最終的には,母音記号がない場合でも,ゼロ母音記号がついたものとして(内在母音がある,と表現される)/OO{/の母音を伴って読まれます。

母音記号がない場合,発音上は,独立した音節として/OO/の母音を伴って読まれる場合と,前の音節に引き続く音節末子音として読まれる場合とがあることになります。(文字上の音節単位をAkshara と呼ぶと,Aksharaと発音上の音節単位であるsyllable は異なります。クメール文字の上記の場合,1 Akshara =1 syllable の場合と,2 Akshara = 1 syllable の場合があることになります。)

クメール文字の構成例 3

タイ文字の特徴

タイ文字はクメール文字をもとに作られました。

タイ文字の実際の字形については,Unicode のThai (Range:0E00-0E7F)を参照してください。

  1. 子音文字(42字,他に廃字2字)には脚文字はない。子音連続は子音文字を並べて書く。(2つの子音が子音連続をなすか,別の音節に属するかは,子音の上下に母音記号や声調記号が付く場合には,第二子音C_2に付くために,判別がつきます。)
  2. 母音記号のうち,e, E, o, ai, ai (SARA E, SARA AE, SARA O, SARA AI MAIMUAN, SARA AI MAIMALAI)が子音字の左側に書かれる。
  3. 母音記号のうち,au は子音字の左側に書かれる母音記号 e (SARA E)と,右側に書かれる母音記号 (SARA A)との組み合わせ文字である。クメール文字と違って,単独では音価を持たない「部品」であることはない。
  4. 母音記号のうち,[AA{] (SARA OE) は子音字の左側に書かれる母音記号 e (SARA E)と,上に書かれる母音記号(SARA SIGN I)との組み合わせ文字である。
  5. 母音記号のうち,[ia] [W{a] は母音記号 e (SARA E)と子音字の上に書かれる母音記号(SARA II, SARA UEE) と,更に子音字の右に書かれる子音字転用母音記号(V_Cと書くことにする,THAI CHARACTER YO YAK, WO WAEN, O ANG の3字)との3者の組み合わせ文字である。この,V_Cは,タイ文字およびラオス文字に特有のものである。
  6. 子音文字と母音記号とが結合することはない。
  7. 声調記号がある。

タイ文字のユニコードは,旧い規格であるTIS (Thai Industrial Standard)を継承しているため,上記のような、ひとつの音素が複数の母音記号および子音字の組み合わせからなる場合には,クメール文字の場合と違って独立したコードを与えられていません。(au = SARA E + SARA AA, ia = SARA E + SARA II + CHAR YO YAK など)これは今後のソーティング、ワードラップなどのテキスト処理においての大きな障害となる可能性があります。発音上の母音音素と文字上のグリフの単位が一致しないためです。

以下では,クメール文字と同様に,タイ文字の音節の構成例を挙げておきます。

ただし,V_C は,上に述べた,本来の子音字を,母音記号としてあるいは組み合わせ母音記号の一部として用いる場合を示します。

タイ文字の構成例 1

タイ文字の構成例 2

ラオス文字の特徴

ラオス文字の字形については、UnicodeのLao (Range:0E80-0EFF)を参照してください。

ラオス文字のUnicode は、TIS 620-2529に基づいています。(Lao 0E81による。)

ラオス文字は以下のような特徴を持っています。

 

  1. 子音文字(26字)があります。子音連続は子音の結合パタンが限定されているため、C_1+C_2の結合文字として書かれる。
  2. タイ文字と同様に,VOWEL SIGN E, EI, O, AY, AI が子音字の左側に書かれる。
  3. タイ文字と異なり,V_Rにはベースラインより下まで達する記号がある。
  4. タイ文字と同様に,子音字の左側に書かれる母音記号 (VOWEL SIGN E)と,右側に書かれる母音記号の組み合わせ文字,左側のEと上に書かれる母音記号との組み合わせ文字、左側のEと子音字の上に書かれる母音記号および子音字の右に書かれる子音字転用母音記号との3者の組み合わせ文字が存在する。
  5. タイ文字と同様に,子音文字と母音記号とが結合することはない。
  6. タイ文字と同様に,声調記号がある。

以上のラオス文字の特徴は,タイ語と多くの共通点を持っていること,発音上はタイ語よりも子音連続が減少したという言語上の特徴が反映していること,さらに社会主義体制下で,綴り字が簡略化されたこと,一部に残された子音連続の結合文字による表記法は,クメール語の脚文字による表記と類似点を持つこと,これらの点で,タイ語とクメール語の中間的な特徴を持っていますが,よりタイ文字表記に近いものです。

以下の文字構成法も,タイ語とほぼ共通しています。

ラオス文字の構成法

 

文字処理の現状と問題点

文字とその印刷に関しては,活字とタイプライタに比較的豊富な経験を持つタイ,両者とも経験したが,印刷,出版があまり盛んでなかったクメール,タイプライタもほとんど使われていなかったラオスという歴史が反映しています。特に,タイプライタは文字に関する審美眼に大きく影響をするようです。

共通の問題

以下には,これらの文字体系に共通する問題を挙げておきます。

  1. 単語の区切りとハイフネーション
  2. 内部コードとソーティング
  3. 辞書の必要性
  4. Zero Width Space の挿入が必要
  5. ジャスティフィケーション

以下に,タイのコンピュータ版下による雑誌から,ジャスティフィケーションの例を挙げます。

タイ文字印刷見本

拡大すると,下の方の行は文字間が大きくあいて,美しいとは言えません。

タイ文字印刷見本

個別の問題

クメール語
  1. 子音字と母音記号の結合文字の処理が,他の言語よりも複雑。現状では,これをサポートするフォントはないが,現在AA研で開発を進めている。
  2. 脚文字の処理は一見複雑だが,クメール文字のソート順を考慮すると,有利な点でもある。
  3. 現行のTrueType フォントの多くは,US キーボードの英字に対応するコードに,クメール語のフォントを割り当てたもの。
  4. 特にジャスティフィケーションで,結合が離れてしまう可能性がある。上記のタイ語の例を参照。結合形のまま,バラバラに間隔があくと,タイ語よりもさらに醜いものになる。
タイ語
  1. iUnicode の基になったTIS コード体系が,タイプライタ的な処理を前提に定められているため,今後のテキスト処理の障害になる可能性がある。
  2. 現在左側の母音記号を発音順と同様に処理するためのImput Method は存在しない。
  3. タイ文字では子音字が音節初頭の子音字なのか,子音連続の第二子音であるかを,字形から知ることができない。この意味でも,辞書を持つことが重要になる。
ラオス語
  1. 社会主義政権下の正書法改革により,もともとタイ語より複雑だった文字体系が簡略化された。旧正書法への揺り戻しの可能性も否定できない。
  2. そもそも印刷文化が十分根付いているとは言い難い。
  3. TIS に基づいて制定されたUnicodeは,より保守的なタイ文字にあってラオス文字にない部分を空白(reserved)としているだけでなく,Sを表すSO SUNG (u0EAA) をタイ語の対応する文字(SO SUA, u0E2A)と同じ順に定めたため,ソートの際にも問題がある。ラオス語では,同じ発音であるSO TAM (u0E8A)の直前にソートされなければならないはず。

参考文献

峰岸真琴 1996. 『タイ語の発音と文字』,東京外国語大学アジア・アフリカ言語文化研究所.

鈴木玲子&ポーンケオ・チャンタマリー 1999.『エクスプレスラオス語』, 白水社.

上田広美『エクスプレス カンボジア語』, 白水社.