峰岸 真琴
このwebサイトは現在進行中のGICASプロジェクトの進行過程とその成果を公開するためのものです。
以下の内容は基本的に工事中です。東南アジアの専門家や情報科学関係者,あるいは一般の皆さんからのご質問,ご要望,ご批判に応えるかたちで,随時内容を更新しつつ充実していきますので,内容に不完全な部分があるままに web 上で公開することをご了解下さい。
東南アジア大陸部には,ヴェトナム,カンボジア,タイ,ラオス,ミャンマーの5つの国がある。これらの国々ではヴェトナム語,カンボジア語(クメール語),タイ語(シャム語),ラオス語(ラオ語),ビルマ語が公用語として用いられている。このうち,タイ語,ラオス語,カンボジア語,ビルマ語の文字は南インド系文字の系統に属している。
南インド系の文字には次のような類似の特徴がある。
1. ひとつの音節が,子音文字,母音記号,声調記号等の記号の組み合わせで表示される「音節文字」である。
2. 発音順と表示用のグリフの並び順が,一致しない。
3. 発音の音素と文字のグリフが1対1対応でないことがある。
このような特徴を持つため,コンピュータ処理する時,次のような問題が発生する。
A. 文字と記号の入力順序を発音順にするか,表示順にするか。
B. 配列の順序をどうしたら良いか。
C. 単語の区切りを見つけたり,単語を配列するための辞書をどのように作るか。
これらの言語は,コンピュータによる文字処理の歴史が違い,おかれている現状が異なる。ここでは各国の文字処理の現状について,現地調査によって得られた結果を紹介する。
また,行組版という点では,改行位置の決定(ワードラップ)法,ジャスティフィケーションの方法,ハイフネーション処理などに,他の言語と異なる工夫が必要となる。これらの各言語の課題について解説する。
ここでは東南アジアの文字について,言語学的な観点から研究を行った結果を中心に述べる。近代言語学においては,音声言語の研究が文字言語の研究に優先することが当然の前提とされてきた。しかし文字は人間の文化情報を媒介し,継承するための時空間を超えた記録媒体として,音声言語よりも有利な性質を持っている。元来は音声言語を書き写すために工夫されたはずの文字言語であるが,いったんある共同体の情報媒体として成立すると,文字は音声とは独立した媒体としての価値を持つことになる。
人間の音声器官から発せられる音波を媒体とする音声言語とは別に,文字は紙,布,石などの書写媒体と,そこに文字を定着させるための筆記具とによって固定される。文字言語独自の媒体の性質により,文字言語は音声言語とは異なる性質を持っている。従って音声言語とは独立した文字言語についての研究が成立する。
音声言語が限られた空間内で,ある時間の範囲で一次元的に伝達されるという音波の特徴を反映しているのに対して,文字言語は何らかの視覚媒体において,平面的な広がりをもって記される。文字言語の研究においては,用いられる文字の構成要素とその空間的な配置が問題になる。これは文字の研究が言語の研究と区別される大きな特徴である。
インド系文字は基本的に音節を表す音節文字であるとされる。東南アジアのインド系文字も音節文字の範疇に含まれる。インド系の音節文字は,その姿かたちを変えながら東南アジア各地で受容され,また各地の言語の音韻的な特徴に合わせて改変を加えられて現代に至っている。この結果として,各地の音節文字にはその言語音が反映しているだけではなく,文字を用いて表される言語の「音韻観」も同時に反映することになった。この意味で,同じインド系文字であるとはいえ,インドの言語と東南アジアの言語とでは音節構造や文法構造が異なり,文字を用いる各民族の異なる音韻観,言語観を反映しているのである。従って,文字を研究することは,諸民族がそれぞれの言語をどう捉えているかという自己認識を比較しながら明らかにすることにつながる。これが「比較文字学」(Comparative Grammatology)である。同じインド系文字といってもインドと東南アジアとでは文字と音韻に対する観念が大きく異なることは後に述べることにする。
インド系の音節文字は,子音文字をその主要な単位とし,その周りを母音記号が取り囲むように配置される。ここで,文字とは単独で書かれるものを指し,記号とはそのような独立性を持たない付属物であるという区別をすることに注意してほしい。
言語の系統と文字の系統は別のものである。東南アジア大陸部の言語のうち,言語系統としてはタイ語(シャム語),ラオス語(ラオ語)はタイ・カダイ諸語に属し,互いによく似ているが,カンボジア語(クメール語)はオーストロアジア語族のうちのモン・クメール語族に属している。また,ビルマ語(ミャンマー語)は,チベット・ビルマ語族に,ベトナム語はモン・クメール語族に分類される。
文字の使用は文化の伝播と関係している。東南アジア大陸部は歴史的に南インドとの関係が深く,紀元前後にはモン人(現在はミャンマー南部に多く住む)とクメール人とがインドの影響を受けて,モン文字,クメール文字の原形が使われるようになった。モン文字からビルマ文字が生まれ,クメール文字からタイ文字,ラオス文字が生まれた。
タイ文字,ラオス文字,クメール文字などの東南アジア大陸部の文字は,以下のような南インド系文字の古い特徴を共有している。
この他の共通点として,複合語や句といった,単語より大きな単位(日本語なら読点を付す単位にほぼ相当するもの)の間に,明示的なスペースが置かれる。
また,インドでは独立母音字であったa が,東南アジアの文字の多くでゼロ子音字として用いられることも,インドの文字とは異なる東南アジア独特の用法ですインド系文字とはいっても,aの持つ独立母音字としての機能と子音記号としての機能という,東南アジア独自の二重性を理解していなかったため,unicodeのクメール文字では,同一のグリフaに2つのコード(u17A2, u17A3)を与える誤りが生じたようである。現在,後者は使わないように強く勧められている。
クメール文字の実際の字形とユニコードについては,以下のサイトのKhmer (Range:1780-17FF)を参照してほしい。
http://www.unicode.org/charts/
カンボジアの首都であるプノンペン(PhnomPenh)という単語を例にとって,文字の構成を見てみよう。
![]() |
例:プノンペンの文字構成(クメール文字) |
この単語を表す文字をローマ字に対応させると,以下のようになる。
![]() |
例:プノンペンの文字構成(ローマ字) |
ph と n という,二つの子音が連続(子音連続)する場合,第二子音(この場合 n)は,独立した子音字ではなく,子音文字ph の下に脚文字で書かれている。
母音記号 om は,子音字ph の上に書かれる記号である。
penh の母音記号eは,子音字の左側に書かれる記号である。
ここで,子音字をCで,特に子音連続の第一子音をC_1で,第二子音をC_2で,特に第二子音あるいは第三子音としてのrをC_rで,母音記号をVで,子音字の左に置かれる母音記号をV_Lで,右に置かれる母音記号をV_Rで,下に置かれる母音記号をV_Bで,上に置かれる母音記号をV_Tで,その他の上付き記号をMで表すと,以下のような音節の構成例を挙げることができる。
![]() |
クメール文字の構成例 1 |
ただし,下の破線は文字のベースライン,上の破線は一般的な子音字の高さを示すものとする。(子音字には,例外的に他の文字より高いものもある。)
C_2の内部の実線は,C_2には下だけに書かれるものと,文字の右側にまではみ出すものがあることを示し, V_Rの内部の2本の実線は,V_Rには子音字の右横に,子音字と同じ高さで書かれるものと,子音字の右下から,右横,右上を囲むように書かれるものがあることを示している。
子音連続の中で,2番目,3番目のr だけが,子音字の左側から下の位置に置かれる。
子音が3つの子音連続では,一般に3つめの子音はC_rである。(古風な書き方には,r以外の第三子音が書かれるような例外もある。)
脚文字C_2 には,C_1の下に書かれるものと,C_1の下から右の位置に置かれるものがある。後者はさらに右側に来る母音記号と結合する。
以下はC_2, C_rがともに存在しない場合の構成例の一部である。V_BがC_2, C_rのない分だけ,上の位置に書かれる。
![]() |
クメール文字の構成例 2 |
以下は,C_rだけがある場合と,C_2, C_rが存在しないC_1だけの場合とを比べたものの例である。最終的には,母音記号がない場合でも,ゼロ母音記号がついたものとして(内在母音がある,と表現される)/OO/の母音を伴って読まれる。
母音記号がない場合,発音上は,独立した音節として/OO/の母音を伴って読まれる場合と,前の音節に引き続く音節末子音として読まれる場合とがあることになる。(文字上の音節単位をAkshara と呼ぶと,Aksharaと発音上の音節単位であるsyllable は異なる。クメール文字の上記の場合,1 Akshara =1 syllable の場合と,2 Akshara = 1 syllable の場合があることになる。)
![]() |
クメール文字の構成例 3
|
クメール文字の特徴の 6 および 7 で挙げたように,一部の子音字あるいは子音脚文字と,それらの右側に置かれる母音記号あるいは母音記号の一部とは結合する。以下に子音字と母音記号の結合例を挙げる。
'k+aa' の結合例(オレンジ色の部分)と単独の子音文字 'k' の例(青色の部分) | |
クメール語印刷例 | ![]() |
意味 | 昔々子どもが一人いて,... |
翻字例 | kaal pii p+reng naay -- maan k+meng m+naak^ |
およその発音 |
kaal pii preeng neay, mean kmeeng mneak.. . |
上記は『クメールの昔話集』(1967年)の印刷の一部例である。クメール語の翻字には数種類あるので,ここではその一例を挙げて説明する。クメール語印刷例のオレンジ色で示した部分は,翻字例の,子音字 'k' に母音記号 'aa' を結合した 'kaa' に対応する。一方,クメール語印刷例の青色で示した部分は,翻字例の,'k+meng' の子音 'k' に対応する。ただし,一般に子音の単独形は,その下に脚文字がつく場合にも用いるので,この例の場合 'm' の脚文字 ('+m' で示す)がついている。
タイ文字はクメール文字をもとに作られた。
タイ文字の実際の字形については,Unicode のThai (Range:0E00-0E7F)を参照してほしい。
タイ文字のユニコードは,旧い規格であるTIS (Thai Industrial Standard)を継承しているため,上記のような、ひとつの音素が複数の母音記号および子音字の組み合わせからなる場合には,クメール文字の場合と違って独立したコードを与えられていない。(au = SARA E + SARA AA, ia = SARA E + SARA II + CHAR YO YAK など)これは今後のソーティング、ワードラップなどのテキスト処理においての大きな障害となる可能性がある。発音上の母音音素と文字上のグリフの単位が一致しないためである。
以下では,クメール文字と同様に,タイ文字の音節の構成例を挙げておく。
ただし,V_C は,上に述べた,本来の子音字を,母音記号としてあるいは組み合わせ母音記号の一部として用いる場合を示する。
タイ文字の構成例 1
タイ文字の構成例 2
ラオス文字の字形については、UnicodeのLao (Range:0E80-0EFF)を参照してほしい。
ラオス文字のUnicode は、TIS 620-2529に基づいている。(Lao 0E81による。)
ラオス文字は以下のような特徴を持っている。
以上のラオス文字の特徴は,タイ語と多くの共通点を持っていること,発音上はタイ語よりも子音連続が減少したという言語上の特徴が反映していること,さらに社会主義体制下で,綴り字が簡略化されたこと,一部に残された子音連続の結合文字による表記法は,クメール語の脚文字による表記と類似点を持つこと,これらの点で,タイ語とクメール語の中間的な特徴を持っているが,よりタイ文字表記に近いものである。
以下の文字構成法も,タイ語とほぼ共通している。
ラオス文字の構成法
文字とその印刷に関しては,活字とタイプライタに比較的豊富な経験を持つタイ,両者とも経験したが,印刷,出版があまり盛んでなかったクメール,タイプライタもほとんど使われていなかったラオスという歴史が反映している。特に,タイプライタは文字に関する審美眼に大きく影響をするようである。
以下には,これらの文字体系に共通する問題を挙げておく。
以下に,タイのコンピュータ版下による雑誌から,ジャスティフィケーションの例を挙げる。
タイ文字印刷見本 (洗濯機の宣伝文)
拡大すると,下の方の行は文字間が大きくあいて,美しいとは言えない。
タイ文字印刷見本
峰岸真琴 1996. 『タイ語の発音と文字』,東京外国語大学アジア・アフリカ言語文化研究所.
鈴木玲子&ポーンケオ・チャンタマリー 1999.『エクスプレスラオス語』, 白水社.
上田広美『エクスプレス カンボジア語』, 白水社.
このページの内容は,以下のセミナーにおける講演内容を下敷きにしている。
峰岸真琴:「タイ語,ラオス語,カンボジア語(クメール語)の文字処理と組版における課題」第五回多言語組版研究会 2003/6/9 (アンテナハウスKK. セミナー・ルーム)