AA研トップ > 読みもの > 新任スタッフ紹介 > 新任スタッフ紹介 78
文字の大きさ : [大きく] [標準] [小さく]

新任スタッフ紹介 78

字幕を蒐めてことばを観る

自作のハードウェア。韓国の地上デジタル放送の電波をアンテナからチューナーを通して受信する。字幕抽出や映像・音声データのエンコードも行う。

YI Yeong-il
(2023年12月特任研究員着任)

近年は動画共有サイトやストリーミングサービスの普及によって映像コンテンツに接しやすくなりました。2019年以降の新型コロナウイルス感染症の影響による巣ごもり生活をきっかけとして日常的に映画やドラマを鑑賞する人も増えていますが,特に海外作品を楽しむときには画面に字幕を表示することも多いかと思います。私は現在このような字幕データを用いて研究を進めております。

一般に字幕は大きく分けて2種類が存在します。一つは映像と一体になっているハードサブ(hardsub),もう一つは映像と分離されたソフトサブ(softsub)です。前者は画像データに焼き付いているため,そこから文字情報を得るためには画像認識技術などが必要となります。後者は字幕用のデータ領域に格納されているため,テキストデータとしての抽出が比較的容易です。

技術発展や法整備に後押しされて現在では多くのテレビ放送番組で字幕が付与されるようになりましたが,リモコンで字幕ボタンを押さない限り表示されない(すなわち「閉じている」)字幕はクローズドキャプションと呼ばれ,ソフトサブの代表例です。画面に写っている場面でどのような発話がなされたかを聴覚障碍者などに伝えることを目的としているため,原則として音声を忠実に文字起こししたものをベースに作られます。これは情報量を圧縮することが多いテロップや翻訳字幕と大きく異なる点です。

私は韓国の地上デジタル放送を受信できるハードウェアを自作し,クローズドキャプションを抽出して構築した独自コーパスを朝鮮語研究に用いています。字幕それ自体を用例分析に利用できますし,用例数が蓄積すると計量分析も取り入れられます。一般的に書き言葉と比較して話し言葉のコーパスは規模を大きくすることが難しいですが,テレビ字幕は日々大量に送信されているため大規模化が可能です。また,様々な番組を受信しているので従来のコーパスより多ジャンルの発話を集められるという点も大きな特徴です。多様な言語使用の例を大量に集積しているという特性を活かした言語研究を目指しています。

幸運にもこの度,情報資源利用研究センターにて働く機会をいただきました。アジア・アフリカ言語文化研究所は研究資源の収集・分析・編纂・発信において数多くの成果を残してきており,その一員として活動に関われることを光栄に思います。伝統ある組織で受け継がれてきた知見を学びながら,自分にどのような貢献ができるかを日々模索していく所存です。


Copyright © 2010 Research Institute for Languages and Cultures of Asia and Africa. All Rights Reserved.