next up previous
次へ: まとめ 上へ: 全文検索エンジンの試み 戻る: 「Humanities-Search 〜人文科学のための全文検索」の作成

「Humanities-Search 〜人文科学のための全文検索」の改良

結局のところ、1年近くの間、そのままの方針で運用してしまったのだが、2000年2 月、Namazu2.0のリリースに伴い、サイト全体の再構築を開始した。Namazu2.0への バージョンアップは、パフォーマンスの向上といったメリットもあったが、一番重 要な変更は、対応文書形式が増えたことである。Word文書, PDF, TeX といったフォーマ ットの ファイルも外部フィルタを利用することによってインデックス化できるよう になったため、 これまでよりも、収集対象にできるファイルが飛躍的に増加した。 Namazu2.0を用いたサイトの再構築にあたっては、 前回の反省を踏まえ、専門分野 リンク集を起点とした再帰取得をレベル5に限定し、 これ以外のデータの取得方法と して、主に、人文系研究機関 自身で独自のWWWサーバを運用しているサイトを対象 に、 トップページから辿れるインデックス化可能なすべてのファイルを 取得してし まうという方法を採った。13また同時に、取得されてしまうことが予想される 無関係なファイル(サーチエンジ ン等)については、 インデックス化の時点でインデックスに取り込んでしまわない ような配慮をおこなった。

この結果、インデックス化可能なファイルの総数は50,279、容量は約1.4GBと なった が、それにも関わらず、無関係なファイルを極力減らしたために、 検索のノイズが 飛躍的に減少した14



Kiyonori Nagasaki 平成13年1月10日