東南アジア大陸部のインド系文字

峰岸 真琴

このwebサイトは現在進行中のGICASプロジェクトの進行過程とその成果を公開するためのものです。

以下の内容は基本的に工事中です。東南アジアの専門家や情報科学関係者,あるいは一般の皆さんからのご質問,ご要望,ご批判に応えるかたちで,随時内容を更新しつつ充実していきますので,内容に不完全な部分があるままに web 上で公開することをご了解下さい。

概要

東南アジア大陸部には,ヴェトナム,カンボジア,タイ,ラオス,ミャンマーの5つの国がある。これらの国々ではヴェトナム語,カンボジア語(クメール語),タイ語(シャム語),ラオス語(ラオ語),ビルマ語が公用語として用いられている。このうち,タイ語,ラオス語,カンボジア語,ビルマ語の文字は南インド系文字の系統に属している。

南インド系の文字には次のような類似の特徴がある。

1. ひとつの音節が,子音文字,母音記号,声調記号等の記号の組み合わせで表示される「音節文字」である。

2. 発音順と表示用のグリフの並び順が,一致しない。

3. 発音の音素と文字のグリフが1対1対応でないことがある。

このような特徴を持つため,コンピュータ処理する時,次のような問題が発生する。

A. 文字と記号の入力順序を発音順にするか,表示順にするか。

B. 配列の順序をどうしたら良いか。

C. 単語の区切りを見つけたり,単語を配列するための辞書をどのように作るか。

これらの言語は,コンピュータによる文字処理の歴史が違い,おかれている現状が異なる。ここでは各国の文字処理の現状について,現地調査によって得られた結果を紹介する。

また,行組版という点では,改行位置の決定(ワードラップ)法,ジャスティフィケーションの方法,ハイフネーション処理などに,他の言語と異なる工夫が必要となる。これらの各言語の課題について解説する。

総論

なぜ文字を研究するのか

ここでは東南アジアの文字について,言語学的な観点から研究を行った結果を中心に述べる。近代言語学においては,音声言語の研究が文字言語の研究に優先することが当然の前提とされてきた。しかし文字は人間の文化情報を媒介し,継承するための時空間を超えた記録媒体として,音声言語よりも有利な性質を持っている。元来は音声言語を書き写すために工夫されたはずの文字言語であるが,いったんある共同体の情報媒体として成立すると,文字は音声とは独立した媒体としての価値を持つことになる。

人間の音声器官から発せられる音波を媒体とする音声言語とは別に,文字は紙,布,石などの書写媒体と,そこに文字を定着させるための筆記具とによって固定される。文字言語独自の媒体の性質により,文字言語は音声言語とは異なる性質を持っている。従って音声言語とは独立した文字言語についての研究が成立する。

文字の構造の研究

音声言語が限られた空間内で,ある時間の範囲で一次元的に伝達されるという音波の特徴を反映しているのに対して,文字言語は何らかの視覚媒体において,平面的な広がりをもって記される。文字言語の研究においては,用いられる文字の構成要素とその空間的な配置が問題になる。これは文字の研究が言語の研究と区別される大きな特徴である。

文字体系の比較研究

インド系文字は基本的に音節を表す音節文字であるとされる。東南アジアのインド系文字も音節文字の範疇に含まれる。インド系の音節文字は,その姿かたちを変えながら東南アジア各地で受容され,また各地の言語の音韻的な特徴に合わせて改変を加えられて現代に至っている。この結果として,各地の音節文字にはその言語音が反映しているだけではなく,文字を用いて表される言語の「音韻観」も同時に反映することになった。この意味で,同じインド系文字であるとはいえ,インドの言語と東南アジアの言語とでは音節構造や文法構造が異なり,文字を用いる各民族の異なる音韻観,言語観を反映しているのである。従って,文字を研究することは,諸民族がそれぞれの言語をどう捉えているかという自己認識を比較しながら明らかにすることにつながる。これが「比較文字学」(Comparative Grammatology)である。同じインド系文字といってもインドと東南アジアとでは文字と音韻に対する観念が大きく異なることは後に述べることにする。

インド系の音節文字は,子音文字をその主要な単位とし,その周りを母音記号が取り囲むように配置される。ここで,文字とは単独で書かれるものを指し,記号とはそのような独立性を持たない付属物であるという区別をすることに注意してほしい。

タイ,ラオス,クメール文字の特徴

言語の系統と文字の系統は別のものである。東南アジア大陸部の言語のうち,言語系統としてはタイ語(シャム語),ラオス語(ラオ語)はタイ・カダイ諸語に属し,互いによく似ているが,カンボジア語(クメール語)はオーストロアジア語族のうちのモン・クメール語族に属している。また,ビルマ語(ミャンマー語)は,チベット・ビルマ語族に,ベトナム語はモン・クメール語族に分類される。

文字の使用は文化の伝播と関係している。東南アジア大陸部は歴史的に南インドとの関係が深く,紀元前後にはモン人(現在はミャンマー南部に多く住む)とクメール人とがインドの影響を受けて,モン文字,クメール文字の原形が使われるようになった。モン文字からビルマ文字が生まれ,クメール文字からタイ文字,ラオス文字が生まれた。

文字体系上の共通点

タイ文字,ラオス文字,クメール文字などの東南アジア大陸部の文字は,以下のような南インド系文字の古い特徴を共有している。

  1. 左から右に横書きされる。
  2. 子音字を中心に母音記号を上下左右に配置する「音節文字」である。
  3. 子音字の文字幅は,文字によって大きく異なる。(プロポーショナル)
  4. 単語が分かち書きされない。(現代インド文字は単語で分かち書きされる。)
  5. e などを表す文字(e, ae, ai)が,子音字の左側に書かれる。

この他の共通点として,複合語や句といった,単語より大きな単位(日本語なら読点を付す単位にほぼ相当するもの)の間に,明示的なスペースが置かれる。

また,インドでは独立母音字であったa が,東南アジアの文字の多くでゼロ子音字として用いられることも,インドの文字とは異なる東南アジア独特の用法ですインド系文字とはいっても,aの持つ独立母音字としての機能と子音記号としての機能という,東南アジア独自の二重性を理解していなかったため,unicodeのクメール文字では,同一のグリフaに2つのコード(u17A2, u17A3)を与える誤りが生じたようである。現在,後者は使わないように強く勧められている。

各文字固有の特徴

クメール文字の特徴

クメール文字の実際の字形とユニコードについては,以下のサイトのKhmer (Range:1780-17FF)を参照してほしい。

http://www.unicode.org/charts/

  1. 子音文字(33字,他にサンスクリット語用 '{s (LETTER SHA), d{s (LETTER SSO)の2字)のほかに,子音連続の第二子音,第三子音を表すための「脚(あし)」がある。脚は南インド系文字以来の特徴。
  2. 母音記号のうち,e, E, ai (VOWEL SIGN E, AE, AI)が子音字の左側に書かれる。
  3. 母音記号のうち,o, au, W{a, ia (VOWEL SIGN OO, AU, YA, IE)が子音字の左側に書かれる e と,右側に書かれる部品との組み合わせ文字である。ただし,クメール語の場合組み合わせの右側の部品には,aa のように,独立した母音記号である場合(e+aa=o)と,単独では音価を持たない「部品」である場合とがある。
  4. 母音記号のうち,(VOWEL SIGN OE, u17BE) は子音字の左側に書かれる e (u17C1)と,上に書かれる(VOWEL SIGN II, u17B8)との組み合わせ文字(e+ii= OE)である。
  5. 母音記号のうち,uM は子音字の上 am (SIGN NIKHAHIT, u17C6) と,下に書かれるu (u17BB)との組み合わせ文字である。Unicodeでは記号と母音字の組み合わせと解釈されている。
  6. 子音文字の一部と,その右側に来る母音記号の一部(={a, o, au, u17B6, u17C4, u17C5)とは,形の上で結合する。(cf. ローマ字のf+i=fi)
  7. 同様に,脚文字の一部と,その右側に来る母音記号の一部(={a, o, au, u17B6, u17C4, u17C5)とは,形の上で結合する。

カンボジアの首都であるプノンペン(PhnomPenh)という単語を例にとって,文字の構成を見てみよう。

例:プノンペンの文字構成(クメール文字)

 

この単語を表す文字をローマ字に対応させると,以下のようになる。

例:プノンペンの文字構成(ローマ字)

ph と n という,二つの子音が連続(子音連続)する場合,第二子音(この場合 n)は,独立した子音字ではなく,子音文字ph の下に脚文字で書かれている。

母音記号 om は,子音字ph の上に書かれる記号である。

penh の母音記号eは,子音字の左側に書かれる記号である。

ここで,子音字をCで,特に子音連続の第一子音をC_1で,第二子音をC_2で,特に第二子音あるいは第三子音としてのrをC_rで,母音記号をVで,子音字の左に置かれる母音記号をV_Lで,右に置かれる母音記号をV_Rで,下に置かれる母音記号をV_Bで,上に置かれる母音記号をV_Tで,その他の上付き記号をMで表すと,以下のような音節の構成例を挙げることができる。

クメール文字の構成例 1

 

ただし,下の破線は文字のベースライン,上の破線は一般的な子音字の高さを示すものとする。(子音字には,例外的に他の文字より高いものもある。)

C_2の内部の実線は,C_2には下だけに書かれるものと,文字の右側にまではみ出すものがあることを示し, V_Rの内部の2本の実線は,V_Rには子音字の右横に,子音字と同じ高さで書かれるものと,子音字の右下から,右横,右上を囲むように書かれるものがあることを示している。

子音連続の中で,2番目,3番目のr だけが,子音字の左側から下の位置に置かれる。

子音が3つの子音連続では,一般に3つめの子音はC_rである。(古風な書き方には,r以外の第三子音が書かれるような例外もある。)

脚文字C_2 には,C_1の下に書かれるものと,C_1の下から右の位置に置かれるものがある。後者はさらに右側に来る母音記号と結合する。

以下はC_2, C_rがともに存在しない場合の構成例の一部である。V_BがC_2, C_rのない分だけ,上の位置に書かれる。

クメール文字の構成例 2

以下は,C_rだけがある場合と,C_2, C_rが存在しないC_1だけの場合とを比べたものの例である。最終的には,母音記号がない場合でも,ゼロ母音記号がついたものとして(内在母音がある,と表現される)/OO/の母音を伴って読まれる。

母音記号がない場合,発音上は,独立した音節として/OO/の母音を伴って読まれる場合と,前の音節に引き続く音節末子音として読まれる場合とがあることになる。(文字上の音節単位をAkshara と呼ぶと,Aksharaと発音上の音節単位であるsyllable は異なる。クメール文字の上記の場合,1 Akshara =1 syllable の場合と,2 Akshara = 1 syllable の場合があることになる。)

クメール文字の構成例 3

クメール文字の結合例

クメール文字の特徴の 6 および 7 で挙げたように,一部の子音字あるいは子音脚文字と,それらの右側に置かれる母音記号あるいは母音記号の一部とは結合する。以下に子音字と母音記号の結合例を挙げる。

  'k+aa' の結合例(オレンジ色の部分)と単独の子音文字 'k' の例(青色の部分)
クメール語印刷例
意味  昔々子どもが一人いて,...
翻字例 kaal pii p+reng naay -- maan k+meng m+naak^
およその発音

kaal pii preeng neay, mean kmeeng mneak.. .

上記は『クメールの昔話集』(1967年)の印刷の一部例である。クメール語の翻字には数種類あるので,ここではその一例を挙げて説明する。クメール語印刷例のオレンジ色で示した部分は,翻字例の,子音字 'k' に母音記号 'aa' を結合した 'kaa' に対応する。一方,クメール語印刷例の青色で示した部分は,翻字例の,'k+meng' の子音 'k' に対応する。ただし,一般に子音の単独形は,その下に脚文字がつく場合にも用いるので,この例の場合 'm' の脚文字 ('+m' で示す)がついている。

タイ文字の特徴

タイ文字はクメール文字をもとに作られた。

タイ文字の実際の字形については,Unicode のThai (Range:0E00-0E7F)を参照してほしい。

  1. 子音文字(42字,他に廃字2字)には脚文字はない。子音連続は子音文字を並べて書く。(2つの子音が子音連続をなすか,別の音節に属するかは,子音の上下に母音記号や声調記号が付く場合には,第二子音C_2に付くために,判別がつく。)
  2. 母音記号のうち,e, E, o, ai, ai (SARA E, SARA AE, SARA O, SARA AI MAIMUAN, SARA AI MAIMALAI)が子音字の左側に書かれる。
  3. 母音記号のうち,au は子音字の左側に書かれる母音記号 e (SARA E)と,右側に書かれる母音記号 (SARA A)との組み合わせ文字である。クメール文字と違って,単独では音価を持たない「部品」であることはない。
  4. 母音記号のうち,[AA{] (SARA OE) は子音字の左側に書かれる母音記号 e (SARA E)と,上に書かれる母音記号(SARA SIGN I)との組み合わせ文字である。
  5. 母音記号のうち,[ia] [W{a] は母音記号 e (SARA E)と子音字の上に書かれる母音記号(SARA II, SARA UEE) と,更に子音字の右に書かれる子音字転用母音記号(V_Cと書くことにする,THAI CHARACTER YO YAK, WO WAEN, O ANG の3字)との3者の組み合わせ文字である。この,V_Cは,タイ文字およびラオス文字に特有のものである。
  6. 子音文字と母音記号とが結合することはない。
  7. 声調記号がある。

タイ文字のユニコードは,旧い規格であるTIS (Thai Industrial Standard)を継承しているため,上記のような、ひとつの音素が複数の母音記号および子音字の組み合わせからなる場合には,クメール文字の場合と違って独立したコードを与えられていない。(au = SARA E + SARA AA, ia = SARA E + SARA II + CHAR YO YAK など)これは今後のソーティング、ワードラップなどのテキスト処理においての大きな障害となる可能性がある。発音上の母音音素と文字上のグリフの単位が一致しないためである。

以下では,クメール文字と同様に,タイ文字の音節の構成例を挙げておく。

ただし,V_C は,上に述べた,本来の子音字を,母音記号としてあるいは組み合わせ母音記号の一部として用いる場合を示する。

タイ文字の構成例 1

タイ文字の構成例 2

ラオス文字の特徴

ラオス文字の字形については、UnicodeのLao (Range:0E80-0EFF)を参照してほしい。

ラオス文字のUnicode は、TIS 620-2529に基づいている。(Lao 0E81による。)

ラオス文字は以下のような特徴を持っている。

 

  1. 子音文字(26字)がある。子音連続は子音の結合パタンが限定されているため、C_1+C_2の結合文字として書かれる。
  2. タイ文字と同様に,VOWEL SIGN E, EI, O, AY, AI が子音字の左側に書かれる。
  3. タイ文字と異なり,V_Rにはベースラインより下まで達する記号がある。
  4. タイ文字と同様に,子音字の左側に書かれる母音記号 (VOWEL SIGN E)と,右側に書かれる母音記号の組み合わせ文字,左側のEと上に書かれる母音記号との組み合わせ文字、左側のEと子音字の上に書かれる母音記号および子音字の右に書かれる子音字転用母音記号との3者の組み合わせ文字が存在する。
  5. タイ文字と同様に,子音文字と母音記号とが結合することはない。
  6. タイ文字と同様に,声調記号がある。

以上のラオス文字の特徴は,タイ語と多くの共通点を持っていること,発音上はタイ語よりも子音連続が減少したという言語上の特徴が反映していること,さらに社会主義体制下で,綴り字が簡略化されたこと,一部に残された子音連続の結合文字による表記法は,クメール語の脚文字による表記と類似点を持つこと,これらの点で,タイ語とクメール語の中間的な特徴を持っているが,よりタイ文字表記に近いものである。

以下の文字構成法も,タイ語とほぼ共通している。

ラオス文字の構成法

文字処理の現状と問題点

文字とその印刷に関しては,活字とタイプライタに比較的豊富な経験を持つタイ,両者とも経験したが,印刷,出版があまり盛んでなかったクメール,タイプライタもほとんど使われていなかったラオスという歴史が反映している。特に,タイプライタは文字に関する審美眼に大きく影響をするようである。

共通の問題

以下には,これらの文字体系に共通する問題を挙げておく。

  1. 単語の区切りとハイフネーション
  2. 内部コードとソーティング
  3. 辞書の必要性
  4. Zero Width Space の挿入が必要
  5. ジャスティフィケーション

以下に,タイのコンピュータ版下による雑誌から,ジャスティフィケーションの例を挙げる。

タイ文字印刷見本 (洗濯機の宣伝文)

拡大すると,下の方の行は文字間が大きくあいて,美しいとは言えない。

タイ文字印刷見本

個別の問題

クメール語
  1. 子音字と母音記号の結合文字の処理が,他の言語よりも複雑。現状では,これをサポートするフォントはないが,現在AA研で開発を進めている。
  2. 脚文字の処理は一見複雑だが,クメール文字のソート順を考慮すると,有利な点でもある。
  3. 現行のTrueType フォントの多くは,US キーボードの英字に対応するコードに,クメール語のフォントを割り当てたもの。
  4. 特にジャスティフィケーションで,結合が離れてしまう可能性がある。上記のタイ語の例を参照。結合形のまま,バラバラに間隔があくと,タイ語よりもさらに醜いものになる。
タイ語
  1. iUnicode の基になったTIS コード体系が,タイプライタ的な処理を前提に定められているため,今後のテキスト処理の障害になる可能性がある。
  2. 現在左側の母音記号を発音順と同様に処理するためのInput Method は存在しない。
  3. タイ文字では子音字が音節初頭の子音字なのか,子音連続の第二子音であるかを,字形から知ることができない。この意味でも,辞書を持つことが重要になる。
ラオス語
  1. 社会主義政権下の正書法改革により,もともとタイ語より複雑だった文字体系が簡略化された。旧正書法への揺り戻しの可能性も否定できない。
  2. そもそも印刷文化が十分根付いているとは言い難い。
  3. TIS に基づいて制定されたUnicodeは,より保守的なタイ文字にあってラオス文字にない部分を空白(reserved)としているだけでなく,Sを表すSO SUNG (u0EAA) をタイ語の対応する文字(SO SUA, u0E2A)と同じ順に定めたため,ソートの際にも問題がある。ラオス語では,同じ発音であるSO TAM (u0E8A)の直前にソートされなければならないはず。

参考文献

峰岸真琴 1996. 『タイ語の発音と文字』,東京外国語大学アジア・アフリカ言語文化研究所.

鈴木玲子&ポーンケオ・チャンタマリー 1999.『エクスプレスラオス語』, 白水社.

上田広美『エクスプレス カンボジア語』, 白水社.

このページの内容は,以下のセミナーにおける講演内容を下敷きにしている。

峰岸真琴:「タイ語,ラオス語,カンボジア語(クメール語)の文字処理と組版における課題」第五回多言語組版研究会 2003/6/9 (アンテナハウスKK. セミナー・ルーム)