next up previous
次へ: 「Humanities-Search 〜人文科学のための全文検索」の改良 上へ: 全文検索エンジンの試み 戻る: 論文の全文検索

「Humanities-Search 〜人文科学のための全文検索」の作成

goo、infoseek等の通常のWeb全文検索エンジンを利用した場合、 キーワードは 一応入っているが実際に役には立たないWeb ページが大量にヒットしてしまうことが多い。そうなることを避けるため に、「哲学/倫 理学/宗教学関係国内リンク集」では、 可能な限りディレクトリ/キーワード検索型 9も残しながら 運用を続けてきたのではあるが、一方で、人文科学各分野のリンク集の 充実を横目で見つつ、より広範かつ充実した情報提供の必要性を感じていた。これを 解決するためには、もはや人の手によるリンク集では困難である。可能性が あるとしたら、検索対象を限定したWeb全文検索エンジンが適当であろうと 考えていた折り、千葉大学情報倫理の構築(FINE)プロジェクトにより 計算機資源に関して協力をいただけることになり、それをきっかけに、人文科学系 全般を網羅することを目的とした全文検索エンジン 「Humanities-Search 〜人文科 学のための全文検索」の構築・運営を開始した。

「Humanities-Search 〜人文科学のための全文検索」 は「人文科学研究におけるWeb の利便性の一端を垣間みせる」ことを目的としており、検索対象を 人文科学に限定 することによって、通常の 全文検索エンジンではなかなか探しきれないような 情報 でも比較的容易に辿り着けるような全文検索エンジンを 目指した。

基本的な方針としては、幾つかの人文科学系専門リンク集10を利用して、WWW巡回 ソフト11でデータを取得してまわり、 それをフリーの全文検索ソフトNamazuを用 いて インデックス化し、Web上で検索できるようにしたのである。

このサイトには、主に、Webを積極的に活用している研究者を中心に、多くの反響が あった。ほとんどは、「便利である」や「素晴らしい技術だ12」といった感想であったが、中には、「卒業論文を書く学生に使わせている」という 大学教員からの報告もあった。

Namazuを採用したのは、ドキュメントが充実しており、 技術的に比較的容易であっ たことと、フリーであること、 である。人文科学分野において どのようなサイトが どの程度存在するのかということを全体的に把握するにあたっては、前出の後藤氏 によるサイト単位でのリスト程度しか存在せず、全体としてどの程度の量の情報が 存在するのかということを把握することは判断が困難であったため、とりあえず 試しにやってみるためには、フリーで容易に使えるということが重要だったので ある。この点については、まとめにおいてもう少し言及する。

当初はNamazu 1.2を利用し、データを収集するにあたっては 各専門リンク集を起点 に再帰取得していた。このため、 データ量を増やそうと再帰取得レベルを上げ、 4 万件強のデータを収集できたが、再帰取得を繰り返し過ぎると、専門分野とは無関 係なサイトに辿り着いてしまうことも多く、結果的には、Yahoo等の検索エンジンの ページや、まったく関係ないページもヒットするようになってしまったという 反省 点が残った。



Kiyonori Nagasaki 平成13年1月10日