第14回コロキアム ワークショップ「データと論文の間―フィールドサイエンスにおける論証とは」

「母語話者の話すことばは正しいのか?:言語データの収集・分析における悩ましさ」

山越 康裕(AA研)

 この報告では、言語学において論証のデータとして用いられる「例文」の収集と加工の難しさについて、言語調査での体験を交えつつ紹介する。

 いわゆる「言語学」とよばれる学問分野は、目的と方法論によってさまざまな形に細分化が進んでいる。その一方で、「言語」を対象とし、その論証のために実例が用いられるという点は(おそらく)共通している。フィールドワークをもとに、対象言語の音韻・文法のしくみを詳細に記述することを目的とするフィールド言語学においても用例の提示は重要であり、またその用例の収集自体が研究目的の一つとなっている。

 フィールド言語学では、アウトプットの最大の目標として「文法書」「テキスト(例文集)」「辞書(語彙集)」のいわゆる「3点セット」が求められる。つまり、その言語のしくみを分析した文法書と、その分析のデータ、実例としてのテキスト・辞書が必要ということである。この「3点セット」は、第三者がその言語の情報を得ようとする際にも活用される。たとえば人間言語の通言語的特徴をさぐる際にも、個別言語の「3点セット」は重要なデータとなる。

 こうしたデータは、母語話者のもとでの調査によって得られる。とくにテキストは、さまざまな方法で収集される。話者に言い伝えや自らの半生を語ってもらう、イラストを提示してそのイラストの状況を解説してもらう、調査者があらかじめ用意した例文調査票に基づいて作例してもらう、といった方法がオーソドックスなものである。当該言語の「危機度」がそれほど深刻ではない場合は、母語話者同士で会話してもらうといった方法もある。こうして語られる発話を録音・録画したものを文字化し、「グロス」とよばれる文法情報を付し、第三者が利用しやすいデータに加工していくことで、「テキスト」が完成する。

 話者から直接データを得るという点で、このデータ収集の作業は一見客観的である。しかしながら、調査者と話者との対面調査で得られるデータがそもそも客観的で信頼できるデータなのか、調査者は常に留意する必要がある。異なるコミュニティの人間と対した際には、人はその話し方も変える。異質な存在である調査者と、録音機材やノートが眼前にある異質な空間で話す話者のことばは、どの程度日常のことばと重なるのだろうか。また、より詳細に文法を記述するために、偏りなく信頼のおけるデータを集めることはできるのだろうか。

 たとえば、報告者自身が研究対象とするシネヘン・ブリヤート語は、漢語(中国語)や他の言語も日常的に用いられる環境のなかで使用されている。シネヘン・ブリヤート語を母語とする話者同士が会話する際には、漢語の単語が多用され、もともとの文法のしくみから逸脱しているような例もコミュニティ内で多く耳にする。しかしながら、こうした用例を対面調査から得ることは非常に難しい。話者のもつ規範意識に反しているために、データとして提供したくないという意識がはたらくのだと推測される。

 また調査を開始した初期のころに話者から採録した語りが、聞きなおしてみるとかなりの程度、モンゴル語が混じっていることに気づいたということもある。調査者である私に対し、「わかりやすい」ように配慮したことが原因だった。

 こうした問題は、「勘のいい」母語話者を見つけることで解消される可能性がある。しかし常にそうした話者が見つかるとは限らないし、またそうした話者に頼りきるのも危険である。フィールドワークでは常にこうした悩みがつきまとう。

 また、得られたデータをもとにしたテキストや文法書は、第三者の利用を想定する必要がある。そこでおこなわれるのが「グロス」と呼ばれる文法情報を付す、データの加工作業である。実例にグロスが付されていないテキスト・文法書は第三者の利用を妨げる。一方、グロスが付されている場合であっても、そのグロスがかえってバイアスをかけてしまうこともある。

 信頼できるデータを偏りなく十分に収集するには、また適切にデータを加工するにはどうしたらよいか。完全な正解はないが、まずはこれらの悩ましさを意識することが重要だと考える。