資料庫実験室

趣旨説明

 我々の研究班は十年以上も文書簡牘の共同講読を重ねてきた。お互いを大いに刺激し合うことはいうまでもなく、史料講読の成果は、メンバーの著作物にもその形を現わしている。しかし、講読の知見をいつでも簡単に参照できる共有財産として保有することは実に難しいことである。

 簡牘が行政文書の主要な書写材料、ひいては情報管理ツールとして国家による行政運営や社会統制を支えていた春秋戦国から魏晋までの時代は「簡牘の時代」とも言えるが、この簡牘時代を通じて文書簡牘の出土は比較的均等な分布を示しており、総量は20万枚を優に超えている。その中で、メンバーの研究重心はそれぞれ異なるから、より複眼的な講読が可能になる一方、共有財産の形成も一層複雑な問題を孕むことになる。

 近年は、共著の電子書籍を手掛けるようになったことをきっかけに、この問題をより切実に痛感するようになり、いきおい輪を広げて、メンバーか否かを問わず、関心のある方が誰でも利用できる文書簡牘資料庫を構築しようのではないかという考えが芽生えた。ここでは、長年講読の中心に置かれていた里耶秦簡を例に、資料庫構想に関わる実験を新しい順に公にし、今後の総合的なデータベースの構築に備えたいと思う。

 正直に言えば、今までは情報学的には失敗の連続である。我々は簡牘のマニアで、情報学の専門家ではないから、やむを得ない面もある。また、博物館などのように、所蔵資料を売りに、資金や専門家を集め、大々的に宝を世に送り出す力もない。一文無しの手ぶらで今からとんでもない財産をつくっていく、そうした気持ちで、まず素直に失敗から学ぶことにしたい。

 ここで公開する著作物やデータやスクリプトは何れも、他の表示がなければ、クリエイティブ・コモンズ 表示-非営利 4.0 国際 パブリック・ライセンス(https://creativecommons.org/licenses/by-nc/4.0/)の範囲でご自由にお使いください。また、一緒に学びたい方や、この知的ベンチャー企業に情報学的知見を投資したい方は大歓迎である。関心のある方は、管理者の陶安あんど(ejina@duck.com)までご一報ください。(本文の文責も、異なる注記がなければ、全て管理者の陶安にある。)

 

9 TEI試作品――校訂情報02(製作中)

 

8 TEI試作品――走馬楼呉簡吏民簿TEIテキスト化試案(2024年12月14日公開)

 簿籍は、我々の従来の文書様式分類では最も手薄な分野であるが、走馬楼呉簡は、ほぼ全ての簡が簿籍で占められるという特徴を持つ約8万点の簡牘の資料群である。この資料の研究に長年従事してきた鷲尾祐子氏は、走馬楼呉簡の吏民簿を対象に、『四年小武陵郷簿』の電子テキスト試作品を作成し(xml形式の電子テキストのスキーマはtei_all_ja.rncに格納)、関連の諸考察を「吏民簿TEI化について」という報告レジュメ(docxpdf)に纏めた。

 鷲尾報告は改めて我々が日頃の資料講読に当たり注目する情報の多様性を印象付けることとなった。時間的な制約もあり、研究会では簿籍のTEI化方針を定めるには至らなかったが、TEI規格の面白いところは、一部の比較的簡単なタグを先行して付与していくことが可能であることである。たとえその中に「間違った」タグがあるとしても、系統的に同じ「間違い」を繰り返していけば、タグ付けの最終的な方針が決まった時に、機械的にそのスキーマに合うタグに置き換えることができる。

 言い換えれば、極めて初歩的なタグ体系でTEI化を実践し、経験を蓄積することができる。鷲尾報告はそうしたことを実証してくれたと言える。同様な実践を継続しつつ、今後は、テキスト校訂・形態記述・様式分類・語彙等というように、情報類型を分け、徐々にタグ体系を構築していく予定である。

 

7 TEI試作品――校訂情報01(2024年10月3日公開、同年10月14日訂正と補記、同年10月29日再補記)

 6 索引データの再分析で述べた情報復原の苦労を避けるために、今後はテキスト情報を最初からTEI規格に準拠して明確にエンコーディングしていく所存である。簡牘学に適したTEIスキーマを構築するには、如何なる情報を蓄積していくかを予め見極める必要があるが、そうしたモデリングは、頭の中で考えるだけでうまくいかないものであるから、まず幾つかの試作品を作成し経験を積んでおきたい。

 9月21日に開催した研究会では、校訂情報と簿籍とに関わる試作品を取り上げ議論を行ったので、まず校訂情報に関わる部分を本実験室の第7弾として公開する。……展開する/折りたたむ

 

6 索引データの再分析(2024年8月2日公開)

 2 索引稿の編集で述べたように、『里耶秦簡(壹)索引稿』は、単なる単語の一覧ではない。同形語が識別できるように、また原文表記の揺れ等にも対応できるように、官職名や身分呼称の正規化表記を工夫し、原文と併記して掲げることにした。編集当時はまだよく分からなかったが、それは、実はテキストエンコーディングでいうインデクシング(indexing)において行う正規化(standardization)と全く同じ作業である。(#dariahteachのindexingNames: People, Places and Organisationsをご参照ください)

 そこで、テキストエンコーディングの実験を始める前に、まず我々が今まで無意識のうちに行った情報処理をもう少し詳しく調べてみたいと考えた。つまり、索引データを再分析し且つそれを釈文の元データと照合することを通じて、我々が語彙の次元で如何なる情報に着目してきたかを再確認し、さらにそれをどこまで機械的に処理できるかを実験してみた。今後のテキストエンコーディングの参考になると考える。……展開する/折りたたむ

 

5 形態と様式分類のデータ収集(2023年5月1日~2023年8月30日作成、2024年7月23日公開、2024年8月2日リンク訂正)

 文書簡牘の古文書学的研究は、文字記載のみを対象とする学問ではない。如何なる形態の簡牘に、文字がどのように配置されているかという問いは、文書の作成から移動・保管・再利用を経て廃棄に至るまでの「ライフサイクル」を明らかにするうえで、記載内容に劣らない重要性を持つ。『里耶秦簡(壹)』収録の簡牘を主要対象としていた1 ワード形式の訳注稿は、すでに様式分類に従った配置原理を最大の特徴としていたが、2023年度の前半には、鈴木直美氏が取り纏め責任者を務め、『里耶秦簡(貮)』収録の簡牘を対象に、メンバーの共同作業で組織的に関連データを収集したので、以下その概要を示す。……展開する/折りたたむ

 

4 DB構想(2024年7月10日公開)

 3 HTML形式の資料庫構想の問題点の根本的な解決には、情報の記述・管理と情報の表示が峻別できる総合的なデータベース(DB)の構築が望まれるが、簡牘に適合的なDBを設計するに当たり、何よりも構造化情報と非構造化情報が混在するという現状を直視することが不可欠だと考える。構造化情報とは、やや単純化して言えば、エクセルのような表計算ソフトに簡単に一覧できるようなデータをいう。コンマで区切られたCSVという特殊なテキストファイルで保存することが多いが、実質は同じである。予めデータの構造が判明し、全てのレコード(エクセルの行)を通じて、一定数のフィールド(エクセルの列)に情報が収まる。非構造化情報は、生きた言葉のように、ぎっちりと構成原理が決まっておらず、表形式に纏めようとしても、常に処理しきれない残余がでてきたり、用意したフィールドが合わなかったりする。文書簡牘の場合には、とくに記載テキストにそうした情報が集中的に現れる。……展開する/折りたたむ

 

3 HTML形式の資料庫構想(2022年7月31日作成、2024年6月30日公開)

 簡牘学でも大量のデータを取り扱わなくなってしまったので、大量の基礎情報処理を人文学者が如何に自前で行えるかが問われる。市販ソフトや委託製作等に頼っていては、その仕様に研究が縛られ、また自らの手でリレーショナルデータベース(RDB)を設計するのも至難の業である。そこで、インターネット自体が大きなデータベースにほかならないから、その主要ファイル形式のHTMLこそ、我々の研究仲間がデータを蓄積して共有する最も手っ取り早い方法ではないか、という発想の下で、後述のワード形式の訳注稿をHTML形式の資料庫に作り替えてみた。さらに、飯田祥子氏がもっていた五一広場後漢簡牘のデータからも同様な資料庫を作製してみた。作業は2022年2月~7月までの間に行われ、陶安が技術開発を担当し、研究協力者として青木俊介・飯田祥子・石原遼平・鷲尾祐子の四氏が実際のデータ加工に当たった。……展開する/折りたたむ

 

2 索引稿の編集(2021年11月30日索引稿公刊、2024年6月30日説明公開)

 索引の編集自体はまだ手動で後掲の訳注稿から項目を拾っていくアナログ方式で行ったが、千以上のリンクを伝って内部を自由に行き来できる電子書籍として索引稿が完成すると、電子書籍が秘める可能性に魅了されてしまった。電子書籍はただ単に紙媒体の平面を電子的に再現したものではない。東京外国語大学学術成果コレクションからダウンロードできるので、是非お試しいただきたい。

 しかし、従来の手作業では、電子書籍の可能性を十全に発揮できるだけのデータを効率的に集めることは甚だ困難である、ということも、この編集作業によって明らかになった。これは3 HTML形式の資料庫構想を練り始めるきっかけと動機となったが、以下はまず索引稿の編集における情報の(やや不手際な)扱い方について紹介しておきたい。。……展開する/折りたたむ

 

1 ワード形式の訳注稿(2014年4月1日~2022年1月31日作成、2024年6月30日公開)

 これは最も伝統的なやり方である。陶安が音頭をとり、それまでの共同講読の結果をワード形式の訳注原稿に纏め、その後講読の度ごとに修正を加えて新しい知見を蓄積していった。里耶秦簡が1万枚以上ではなく約1千枚なら、それで通常の書籍として疾うに世に問えたところであろう。……展開する/折りたたむ