コンピュータ上でのデータ管理,成果の公開に関する技術的サポート
i. データの入力,管理


フィールドノートのデータを電子的に管理する方法には,大きく分類すると以下のものがあります。

[1] テキストファイルの形で保管する。
[2] Microsoft Wordなどのワープロソフトの書式で保管する。
[3] データベースソフト(アクセス,ファイルメーカーなど)を利用して整理する。

ここでは,それぞれの方法の利点,欠点について触れるとともに,[1]-[3]ごとに,特殊文字を含むデータの入力に関する情報を紹介します。
特殊文字表示の方法はシステムによって異なります。ここでは,Windows 2000以上のシステムを使っている場合について述べます。

(・WindowsMeまでのシステム,マッキントッシュに関しては,情報収集中です。)


[1] テキストファイルの形で保管する。
多くの研究者は,フィールドノートを電子化する際,ひとまずテキストファイルの形で保管しています。テキストファイルというのは,「コード情報」だけを含んだファイルです。テキストファイルのデータはフォントなどの余分な情報を含んでいないため,汎用性が高く,そのままあらゆるソフトウェアに入れることができますし,正規表現による検索・置換を行う際にも使えるという利点があります。

「テキストファイル」のデータで,特殊文字を表示する方法

データをMS-Wordなどの形で持っている研究者は,テキストファイルではIPAや補助記号つきの文字を入力しにくいという理由でそうしているのだと思います。しかし,Windows2000以降のシステムは,ユニコードをサポートしているため,テキストファイルのデータで,特殊文字を入力,表示することができます。以下の部分では,その方法を紹介します。

エディター

・データをテキストファイルの形にする場合は,「エディター」というソフトウェアを使います。
エディターには,様々なものがありますが,ここではまず,Windowsに標準で入っているエディター,「メモ帳」を使ってみましょう。
([スタート]-[プログラム]-[アクセサリ]の項から行けます。)

従来,テキストファイルでの保存には,用いることのできる特殊文字が限られているという難点がありました。しかし,Windows2000以上のシステムを使っている場合,「メモ帳」はユニコードをカバーしているので,かなりの範囲の特殊記号を表示することができます。
入力,表示できる文字種は,選択するフォントによって異なります。
ここでは,例として「MS明朝」を選んでみます。
メモ帳のファイルを開き,[書式]-[フォント]-[フォント名]から「MS明朝」を選択してください。

(-ここで,Lucida Unicodeなどのフォントなどを選んでも後の手順は同様です。また,-エディターでは,MS-Wordなどのワープロソフトと異なり,文書内で複数のフォントを用いることが出来ません。欧文はTimes NewRomanで表示し,日本語はMS明朝にする,というようなことはできないのです。ここがエディターの限界です。)

さて,実際特殊文字の入力を行ってみましょう。ここでキーボードから直接入力できるのは,キーボードに表示のある文字,つまり,日本語とアルファベット26文字,数字,および ! # $ などの記号だけです。しかし,このフォントは,潜在的には他のもっと多くの文字を持っているのです。
一般に,あるフォントがカバーしている文字は,「文字コード表」というものを開けば見ることができます。

「文字コード表」には,一度エディターの外に出て,[スタート]-[プログラム]-[アクセサリ]-[システムツール]から行くことができます。
文字コード表を開くと,ボックスの上の方に,「フォント」を選ぶボックスがあります。そこから,MS明朝を選んでみましょう。
下に表示されるのが,このフォントのカバーしている文字です。通常必要とされる補助記号付きの文字や,IPAの多くが含まれています。

これらを「メモ帳」で表示するためには,表示したい文字をクリックし,(そうすると文字が大きく表示されます),「選択」のボタンをクリックします。
その上で,「コピー」のボタンをクリックします。それが済んだら,「メモ帳」に戻り,その文字を貼り付けます。(ctrl+vまたは,[編集]-[貼り付け])

入力支援ソフトKeyman

さて,特殊文字が入力,表示が原理的に可能であるとしても,実際の作業を考えると,文字コードからの入力を繰り返すのは現実的ではありません。対象言語の表記に用いられる音字は,キーボードから直接入力したいものです。そのようなニーズに答えるソフトとして,Keymanがあります。Keymanは,キーボードのキーと,文字コードの関連づけを自由に変えられるソフトウェアです。

Keymanは,Tavulte Softwareが開発,配布しているソフトウェアで,以下のサイトから購入できます。

TabulteSoft

また,SILInternationalのページにも解説があります。

・「メモ帳」以外のエディター(「正規表現」が用いられるもの)
ここまで,Windowsに標準で入っているエディター,「メモ帳」を使って特殊文字を表示する方法を紹介してきました。
「メモ帳」は,テキストファイルを作るのを主な用途とするシンプルなエディターです。一方,エディターの中には,「検索」「置換」などを行うツールが充実しているものがあります。
例:
・秀丸エディター
・EMエディター

いずれも有料のシェアウェアですが,「正規表現」に対応しているため,kwic,grepなどのツールを使うことができるので非常に便利です。

[Kwic, grepについての説明は,現在準備中です。]

[2] Microsoft Wordなどのワープロソフトの書式で保管する。
Microsoft Wordなどのワープロソフトを使うと,データを「フォント」などの書式情報を含んだ形で保管することができます。そのため,一つの文書内で,複数のフォントを混在させることができるという利点があります。そのかわり,テキストファイルが持つ汎用性は失われます。(「フォント」についての詳細は,[C]成果の公刊で扱います。)また,ファイルのサイズが大きくなってしまうという欠点があります。

ただし,Microsoft Wordは,ユニコードをサポートしているので,汎用性の問題は解決されつつあります。
また,Microsoft Wordを使うと,特殊文字の入力が簡単にできるというメリットもあります。
([挿入]-[記号と特殊文字]から文字の選択と挿入ができますし,よく使う文字のショートカットキーの設定も可能です。)

ですから,データの保管をMicrosoft Wordで行い,他のソフトウェアで用いたいときなどは,必要に応じてテキストファイルの形に変換するというのも魅力的なオプションです。

[3] データベースソフト(アクセス,ファイルメーカーなど)を利用して整理する。
単語データは,ファイルメーカー,アクセスなどのデータベースソフトに入れると並び替えや検索などに便利です。
また,テキストと単語データを関連付けながら整理できるソフトとして,シューボックスがあります。
(シューボックスについては,SILInternationalの以下のサイトを参照ください。)

http://www.ethnologue.com/tools_docs/shoebox.asp

データベースソフトの多くは,フォントなどの書式情報を含んだデータを扱うことができます。(「書式」などのメニューから「フォント」を選択することによって,選択画面が現れます。)
ただし, ファイルメーカー,シューボックスは,ユニコードに対応していないため,Windows2000以上のシステムでは以下のような不具合がみられます。

・ユニコードにある,多種多様なIPA,補助記号が表示できない。
・従来, IPA Kiel, SIL doulous IPAなどがカバーしていたIPA,補助記号付きの文字のうち,キーボードから直接入力できる(ASCIIの標準の)96の文字以外の文字(いわゆる,アッパーアスキーに対応する文字)が表示できない。(Windows2000以前のシステムでは表示できていたものができなくなったわけです。)
このような問題点の解決は,それぞれのソフトウェアがユニコードに対応してくれるのを待つしかありません。

データベースソフトのうち,Microsoft社のデータベースソフトAccessは,ユニコードに対応しているため,上記のような不具合は生じません。
また, WindowsMeまでのシステムでは,上記のような問題はありません。
(ただし,システムがユニコードに対応していないため,どのようなフォントを使うにせよ,用いることができる特殊文字が限られています。)


オンラインリソースのトップに戻る