以下、本研究課題の申請書をまとめ直したものです。本研究の概要の把握にご活用ください
人文学、ことにその基礎をなす古典学や文献学は現在危機に瀕している。現代社会における有用性という、大規模で、超域的で、短期的で、即効性を志向する研究領域における価値の創出が強く要請される時代状況のなか、短くとも百年を要する研究資料の継続的批判をとおし、専門に特化された課題が漸次に解明される研究は、費やされる労力の厖大さに比して得られる成果があまりに微少なものにみえ、量的に価値をはかろうとする現代の尺度からすれば、割に合わない営為とみなされてしまう。くわえて研究に関わる知識は時を経るごとにあらたに獲得され、複雑化し、等比級数的に増大の一途をたどる。このため傑出した研究者個人の資質に委ねられてきた研究は、成立がますます困難になっている。その一方で、こうした状況とは無関係に、人類は過去から現在にいたるまで伝統のうちに継承した聖典や古典や歴史に自身の現在を照合し、そこから独自の意味を獲得しようとする。民族、宗教、歴史という次元に出現する意味がしばしば恣意的な解釈にゆだねられ、人類と地球の命運を決定しかねないことは現今の危険な世界情況が如実にしめすところである。人類の知的遺産として精神文化の支柱となってきた聖典や古典の解釈を理性に託し批判的に研究する営為は、人類英知の発露として今後も堅持し継承されてゆく必要がある。
いまこの人文学の危機を脱しうるまたとない好機が訪れている。情報通信技術革命の到来である。1990 年代より急速に社会を変革しはじめたこの現象は、自然科学をはじめとする諸科学に多大な影響を与え、基盤となる研究データの収集、整理、分析から、成果の公開、共有に至るまで、厖大な研究プロセスの全体を、飛躍的に高い能力で処理しうるデジタル学術空間へと再編してきた。人文学はこの新たな学術空間を創成し、そこに自身をすえなおすDX を実現することによって、上述の課題を解決にもたらすことができる。人文学の基礎をなす文献学、古典学にとってもっとも重要なのは、解釈を成立させるための信頼しうる基盤を構築するテキスト批判といわれる営為である。解釈の質そのものを決定するこの必要条件の整備は、異文化、異世界の過去に遺された知的遺産を、可能なかぎり広範囲に、精深に探求し、そこで得られた成果全体を批判的考察に晒すことによってはじめて実現しうる。厖大な労力が要求され、書物や論文というこれまでの媒体に閉ざされた知識空間ではもはや不可能になりつつあるこの営為は、デジタル媒体において人工知能AI の力を利用することにより、かつてない可能性を手にしている。ところが日本の人文学はこの事態を認識しえず、わずかにアドホックに対処するに留まっていて、好機を生かす糸口を見だせていない。
本研究は、この問題を抜本的に解決するため、学問分野全体における知識基盤のデジタル化がもっとも進んだ仏教学分野において、研究代表者が構築してきた人文学DX の次世代モデルとAI-OCR を採用した最新の実装システムを用い、大蔵経の再編纂――令和大蔵経の編纂――を可能とする大規模なDX を行う。この過程において、あらたな研究方法と学術的評価における知見を提示し、DX-AI 時代に成立する日本の人文学が進むべき方途をしめす。これは日本の人文学いずれの分野においてもなされたことのない学術を拓く企図である。以下、その要点を、(1)ウェブ上における大蔵経再編のための〈共創的デジタル学術プラットフォーム〉(Collaborative Research Database for the Humanities, CRDIH)の構築、(2)他の類例プロジェクトと本研究の差異、(3)オープンサイエンスの流れにそくし次世代の人文学におけるあらたな学術研究プロセス構築とその評価方法の提示という三点に分けてしめす。
(1)1500 年を超える伝統のなかで形成された仏教聖典のコーパスたる大蔵経を近代世界にあらたに提供した大正新脩大蔵経(大正蔵)は、世界各地の研究図書館においてリファレンスブックとして受容され、仏教を中心とする東洋の思想、文学、歴史研究の知識基盤として唯一無二の役割を果たしてきた。本研究課題は、この聖典コーパスを対象とする研究が、AI をはじめとする情報通信技術の優れた能力を利用することができるための新学術環境を創成する。すなわち、OCR とAI の最新技術を用いることによって一億一千万文字から成る大蔵経について、宋版、元版、明版、高麗版、宮内庁宋版等の異版間における異字を一字単位で対比可能とし、これを通してウェブ上の共同作業空間において大蔵経コーパスの改訂を試みる。長大な歴史を経て編纂された一大聖典の集成について、その展開過程全体を復元するこの企図は、これまでなしえなかった壮大な知の構成過程の可視化である。これによって、解釈の基礎となるテキスト批判を成立せしめる研究基盤が、この百年に蓄積した厖大な知見を集約しつつあらたに整備され、学界で百年におよぶ悲願であった大蔵経の再編纂を実現する。それは、過去百年の国際学界に対しての日本の貢献を、つぎの未来の百年にむけて刷新する歴史的な大事業である。
(2)日本は、資料をデジタル化して公開する情報技術においては先進諸国に伍する技術と成果を有してきた。けれどもそこに人文学独自の知見を組みこみ、デジタル媒体の特徴を活かして利用可能なかたちで共有する人文学のDX という側面では、かなり立ちおくれた状況にある。本研究課題は、まさにこれから日本の人文学が直面することになる課題を解決するための有力なモデルを提示するものであり、本研究課題が企図するCRDIH の成否は、仏教研究はもとより、デジタル時代における日本の人文学全体の存立の成否に関わってくる。大規模な研究機関がその潜在力を十全に発揮しうるためには、新規分野を挑戦的に開拓する研究が必要である。本研究課題は、まさにその役割を仏教学分野から果たそうとするものであり、これが実現されれば、今後の日本の人文学全体は大きく裨益されるだろう。
(3)日本政府の学術政策としてオープンサイエンスにはこれまで膨大なリソースが割かれてきたにもかかわらず、人文学においてはそれに応えるための対応が十分にはなされていない。本研究が実現をめざす研究プラットフォームCRDIH は、この課題に対する人文学からの貢献の具体的道筋を拓くものとなる。CRDIH の構築に関わる研究者は、その貢献が顕名で逐次記録され、その学術的評価を要求する権利が与えられる。いっぽう、それを利用する側の研究者は、改訂された成果を自身の研究に取りこむとともに、その取捨選択について学術的判断を与える場合、同様にCRDIH に記録され、学術評価を得る権利が与えられる。高度に学術的な応答になれば、提供者と利用者とは入れ替わりうるのであり、その応答自体が研究成果として承認されるプラットフォームを構築する。
CRDIH は、仏教学における高度に専門的で学術的な質を判断するという専門分野に特有で伝統的な評価にかかわる課題と、ウェブ上の研究プラットフォーム上で学術評価方法を確立するという人文学全体に共通し新規な課題との二つを課題としている。この両者に指針をあたえるCRDIH 編集委員会、およびその指針を最終決定するアドバイザリーボードは、仏教学の専門研究者と、欧米でDigital Humanities を先導するトップの専門家によって構成されている。伝統的な人文学的なオーソライズの方法に、速報性と多様性を実現するプレプリントの理念を導入し、両者を階層化しつつ併存させる学術評価法を探求してゆく。この活動をとおしてオープンアクセスが提示する課題に人文学から応答するひとつの道が開かれるだろう。
日本は、独自に蓄積してきた厖大な歴史的文化的遺産を、これから未来の百年にむけて人類の知的営為として継承し、その意義を世界に発信しつづけることができるか否かという、重要な課題に直面している。それは研究の開始から遂行、評価にいたるまでの研究プロセスの全体を視野に入れなければ解決しえない。この課題に、ひとつの学問分野として正面から挑み、次世代人文学研究基盤構築のモデルを具体的に提示ことを、本研究では目指している。
紀元前5 世紀のインドに興った仏教は、厖大な量の聖典を生みだしてアジア諸地域に流布し、東洋思想文化の支柱となった。なかでも1000 年を超える時をかけて中国に断続的に移入、翻訳された聖典群は、大蔵経という5000 巻を超える壮大な知の集成となった。大蔵経は、4 世紀の釋道安による『綜理衆経目録』以来、東アジアの知的伝統のなかで継続的に編纂、整理されなおし、10 世紀以降、中国・朝鮮・日本において木版印刷として伝承された。この過程で多系統に分岐した大蔵経を、19 世紀末、東京・増上寺所蔵の三大蔵(高麗再雕版・宋版・元版)と校合して批判校訂し世界初の活版印刷による仏典として公刊したのは、日本の島田蕃根らによる大日本校訂大蔵経(縮刷蔵とも呼ばれる)であり、さらにそれにもとづきつつ新たな対校資料の採用などをとおして再編纂し、国際的叢書として1924 年より刊行したのが、高楠順次郎らによる「大正新脩大藏經」(以下、大正蔵)である。大正蔵は、人文学研究資料としての稀少性と高い学術的信頼性から世界各地の研究図書館にリファレンスブックとして受容され、日本から発信される東洋の思想、文学、歴史研究の知識基盤として唯一無二の役割を果たしてきた。
しかるに20 世紀後半以降の情報通信革命の急激な進展とともに、学術界は大規模な変革を経験しはじめた。研究基盤となるデータの収集、整理、分析から成果の公開、共有にいたる研究プロセスの全体をデジタル学術空間へ再編するこの未曽有の課題の分析をとおして明らかになったことは、大正蔵というテキストの集成が東洋思想研究における国際的な研究者共同体の形成とそこからの知の創成を実現する仏教学コモンズとも称すべきネットワークとして機能してきた事実である。研究代表者らによって1994 年に設立されたSAT 大蔵経テキストデータベース研究会(代表者・下田正弘。以下、SAT)が進めた、1 億字超からなる大正蔵の全テキストデータベース(以下、SATDB)の構築は、このコモンズの意義と有用性をデジタル学術空間に実現し、仏教学をはじめとする関連諸学のあらたな学術基盤とすることを目的としたものである。この大きな企図のうちに本研究課題の核心をなす学術的問いがある。
この学術基盤の再編にあたり、研究代表者らはあらたなデジタル研究国際ネットワークを形成しつつ、SAT DB の研究と構築を進めた。その過程で日本の人文学のDX がたち遅れて国際ネットワークから孤立していること、それが将来的に日本から発信するSATDB の存続にも大きな障害となることを認識するにいたった。デジタル学術環境にあっては、言語、制度、専門、国、地域の相違を超えて多様な知識が統一的フォーマットでネットワーク化されることが必要であり、日本の環境改善は日本のSATの持続的発展の条件となるからである。これを実現するため、志を同じくする国内の関連研究者たちとの協力関係の下、研究代表者が会長となってデジタル・ヒューマニティーズ(以下、人文情報学、DH とも)の国際的連合組織である国際DH 学会連合の加盟組織として日本DH学会を2012 年に設立し、毎年国際研究集会を開催し、海外から気鋭のDH研究者を招聘して講演やチュートリアルを日本の人文学に向けて実施してきた。また人文学のためのテキストデータ構築の国際標準であるTEI(TextEncodingInitiative)ガイドラインを策定するTEI 協会の年次国際学術大会を2018 年に東京で開催して300名超の参加者を集め、さらに2022 年には国際DH学会連合の年次大会を東京にてオンライン開催し、世界40 数カ国から700 名の参加者を迎えた。このようにして国際的なDH活動と密接に連携しつつ、人文学のデジタル化に必要な各種の国際標準規格や組織的人的ネットワークの構築と環境改善を進めてきた。
この活動を実質的なものとするためには、日本を含む東アジア資料をデジタル媒体上で適切に扱える環境が必要だが、それを定める国際標準規格はまったく不十分なままであり、妥協して使わざるを得ない状況が長らく続いていた。これに際して、まず、文字の表現手法について、SAT はUnicode に関する国際標準化機構の会議体であるISO/IECJTC1/SC2 にリエゾンメンバーとして正式に加盟し、コンピュータ上で適切に扱えない漢字や悉曇(梵字)異体字など、3000 字以上のUnicode 外字をISO/IEC10646 経由でUnicode に登録した。また、テキストデータの構造的記述手法に関しては、テキスト研究における国際ルールを策定するTEI協会によるTEI ガイドラインが国際的にはデファクト標準であったものの、欧米中心に進められていたために日本語を含む東アジアのテキスト資料には十分対応していなかったため、SATではその改訂を目指す活動に着手した。2016 年にSATのメンバーがTEI 協会内の公式な組織として東アジア/日本語分科会を設立し、その流れはやがて2021 年におけるTEI ガイドラインの改訂へとつながった。そして、写本や版本等の研究において重要なWeb 画像処理に関しては、英国図書館、フランス国立図書館、スタンフォード大学をはじめとする世界各地の研究図書館が推進するIIIF(International Image Interoperability Framework)に対応したWeb サービスを日本で初めて公開するとともに、IIIF 画像ビューワの東アジア文献のための改良を行い、日本や東アジア文化の研究に資する基盤の形成を進めてきた。
これらの成果を集約して「次世代人文学のためのデジタル研究環境のモデル」(以下、次世代モデル)として提示するとともに、日本の人文学デジタル研究環境向上のため、オープンアクセス書籍『デジタル学術空間の作り方』(2019 年)をはじめとする複数の入門書を出版し、各地の研究機関での総計100 回を超えるTEI ガイドラインとIIIF のセミナー開催による普及活動を展開した。IIIF に関しては国立国会図書館や国文学研究資料館をはじめとする国内の多くの研究機関での採用を支援し、TEI ガイドラインに関しても国文学研究資料館、国立歴史民俗博物館、東京大学をはじめとする人文系研究データ作成に取り組む各地の組織に協力を行ない、利用を促進した。これらの活動が評価された、2012年ハンブルクにおけるDH 国際学会での基調講演をはじめ欧米やアジアを問わず世界各地の研究機関で招待講演を行い、国内でも2019 年に第8 回ゲスナー賞「デジタルによる知の組織化」部門金賞、およびデジタルアーカイブ学会第1 回学会賞(実践賞)を受賞している。
こうした営為をとおしDX の遅滞を漸次解消してきた日本の人文学は、近年になって従来の対応では処しえない大きな問題に直面している。生成AI の登場である。研究プロセスに多大な影響を与え、研究方法として急速にデファクト化する生成AI を視野に入れることは、いまやあらゆる研究分野において喫緊に対応すべき課題である。生成AI が導きだす応答の質はひとえに学習用データの存在と質とに依拠している。人文学の基盤知識となるデータのオープン化と共通規格化がほとんど実現していない日本においては、信頼に足る学習データの量があまりに乏しく、このままでは急速に高度化しつづける世界の生成AI から日本語圏の生成AI は取りのこされ、人文学はその恩恵に預かりえないままに霞んでゆきかねない。憂慮すべき事態である。
こうしたなか、SAT は発展途上のAI を活用し、AI-OCR 技術を活かした木版・写本の自動対照システムを開発して研究資料の処理に必要な作業を飛躍的に効率化することに成功した。その成果は、2023年4 月のウィーン大学での国際会議を皮切りに国内外の研究集会に招待されるなどして報告を行ない、そのレビューを通じて改良を継続してきている。一方で、RAG (Retrieval-Augmented Generation) を用いた生成AIによる学術研究支援システムの開発にも着手し、すでにUCバークリー及び東京大学での国際シンポジウムにおいて発表を行なったところである。研究代表者らがこれまで構築した「次世代モデル」にAI を適用することで再編したこれらのシステムを研究の中核に据え、関係学界の研究者を参画せしめることによって大正蔵を再編集するという百年来の学界の悲願の実現が可能となった。これによって過去の仏教学コモンズは未来にむけて刷新再編され、人文学の進むべき方途がしめされるだろう。
本研究の目的は、研究媒体のデジタル化とAI が創出する新たな知識環境において人文学が成立するための要件を洗いだし、それらが整合的に収めとられるデジタル学術空間を構築し、人文学全体の営為再編のための詳細な道筋をしめすことにある。この目的にむけて、学問分野全体における知識基盤のデジタル化が進んだ仏教学分野を対象とし、知の基盤たる大蔵経を学界規模で再編集し、あらたな研究者コモンズを構築する。デジタル媒体における学知の形成というこの企図を実現するためには、専門分野の相違を超えて人文学全体で統一的なフォーマットによってデータを構築することが必要となる。
デジタル学術空間の形成に際し専門分野の差異にかかわりなくあらゆる学知に等しく求められる要件は、学術基盤の構築におけるリサーチソフトウェアエンジニアやデジタル系ライブラリアンなど異分野の研究者や実践者たちとの協業化であり、そのための学知構成過程の可視化であり、成果の公開化である。現在日本もふくめ欧米を中心とする世界で強力に推進されているオープンサイエンスの理念は、この要請にかさなる。これらの要請は、これまで人文学で試みられてきた個人単位の営為では応答しえず、学界レベルで対応する必要がある。しかもその学術の空間は一国内に閉じられず国際的に開かれていることを踏まえれば、国内の学会の枠を超えて国際学界と連携し学術環境構築に必要な事柄を国際標準規格のレベルまで調整できる体制を構築する必要がある。この一連の課題について、本研究の主体となるSAT プロジェクトは、着実に成果を挙げてきた。SAT DB 構築では、科研費成果公開促進費および財団法人仏教学術振興会による寄付金を中心とする6 億円の費用をかけ、延べ200 名を超える研究協力者を得て、2007 年に完成した。その後、科研費成果公開促進費、基盤研究(A)・(S)等を通じ、新たに延べ200 名以上の研究者を事業に招集し、データベースを再校閲しつつ、海外有力研究機関との技術的連携を実現した。SATDB は、世界各地のデジタル研究資源と連携し、国際標準に高度なかたちで準拠した国内の人文学でも国際的にも稀なデジタル研究環境である。その詳細に立ち入れば、まず世界のデジタル資源との国際連携について、電子辞典としては、仏教学専門英語電子辞典(Digital Dictionary of Buddhism)および商用日本語電子辞典(ジャパンナレッジ・仏教語大辞典)、専門分野論文データベースとしては、国内のINBUDS(日本印度学仏教学会)および海外のSARDS(ドイツ・ハレ大学)、デジタル目録としては、The Buddhist Canons Research Database(コロンビア大学)、英訳テキストとしては、仏典英訳(公益財団法人仏教伝道協会公刊)にもとづきTEI ガイドラインに準拠し構築した文章単位のパラレルコーパス、デジタル仏典画像としては、IIIF を介し、フランス国立図書館、国立国会図書館、国文学研究資料館、東京大学、京都大学等と連携した研究資源の共用を実現している。
さらに、人文学に関わる国際技術標準規格への関与については、1. 本研究の学術的背景、研究課題の核心をなす学術的「問い」において記したとおりである。くわえて日本仏教のテキストの扱いについて、言語コードの詳細な区別の必要性を認識し、昨年度よりISOTC37 に参加し、国立国語研究所の研究者と連携しつつ、日本語の歴史的言語コードの国際標準規格策定のための提案準備を進めている。
以上、デジタル学術基盤構築の共同化、学知構成過程の可視化、成果を提供し享受する空間の公共化という課題について、SAT の成果は国内外における人文学分野の研究者による協働を背景として顕著な成果を挙げており、本研究課題において、仏教学はもとより人文学諸分野の研究者を動員する大規模な体制を組織している。
図 1 に提示する体制において、国内各地で大学院生や若手研究者を指導するシニアの研究者がともにCRDIH の構築に参画し、新たな大蔵経の構築をめざす。その技術は最先端の国内外の研究者によるレビューにつねに晒し、新規の開発に継続的に反映する。さらにこの研究活動で得られた知見を人文情報学に関わる国内各地の多様な分野の人文系研究者と共有し、レビュー活動をつうじてそれらの分野に成果が直接に還元されることを企図している。デジタル時代における人文学全体を支援するためには、個別の研究を包摂する大規模な学術基盤改訂の営為が必要であり、しかもそれが、日本が独自に果たしうる企図である必要がある。本研究はそれをなしうるものである。
研究代表者らは、学術環境のデジタル化を積極的に進めてきた仏教学の研究活動を長きにわたって推進するとともに、広く国際人文情報学界と活動をともにしてきた。この過程で日本の人文学全体が国際標準に準拠しつつ研究基盤をデジタル媒体に移行するとともに、東アジアや日本の研究分野において研究モデルを提示する重要性を強く認識するにいたった。この認識に至る活動の経緯は、およそ以下の通りである。
(1)常に変遷するデジタル技術を踏まえた研究基盤の開発
これについては上述のとおりである。さらに補足すれば、毎年1~2 回世界各地で開催されるデジタル仏教学の国際的なシンポジウムのみならず、東アジア人文学・図書館学の国際シンポジウムで招聘を受け、国内のみならず海外の人文学研究者にたいしても、折々の最新技術とその応用例や応用可能性について知識提供を行ってきている。
(2)国際標準への対応と国際デジタル・ヒューマニティーズ学協会との協同
研究代表者らによる国際標準や国内の研究動向の関係についてはすでに述べた。それらの活動を経て、欧米諸国におけるデジタル技術の人文学への適用の最新の状況については関係研究者との緊密な国際的なネットワークを構築し、同時にそれを国内人文学関係者にフィードバックするネットワークも形成している。こうした全世界的な潮流を日本の人文学に還元すべく、研究代表者らは国内の種々の人文系研究教育諸機関に客員や兼任等で深く関わり、国際動向への対応を支援してきている。
(3)国際的仏教研究の枠組みの発展への対応
国際的な仏教研究の枠組みにおいてはデータ連携が顕著に進展し、多分野に比して人文学全体のモデルとなりうる条件が高度に整っている。研究代表者らはハンブルク大学と共同で進めるインド=チベット語デジタル仏教辞典構築プロジェクトIndo-Tibetan Lexical Resource(ITLR)およびフランス碑文・文芸アカデミーとの共同プロジェクト「デジタル法寶義林Digital Hôbôgirin」において、システムとデータ形式の構築を主導してきた。これはオープンデータとして欧州のSSHOpenMarketPlace に掲載されている。現在米国のBDRC(Buddhist Digital Resource Center)によるチベット仏典、台湾のCBETA・DILA(Dharma Drum Institute of Liberal Arts)による中国仏典、ウィーン大学・オーストリア科学アカデミー等によるSARIT(Search and Retrieval of Indic Texts)などの国際的学術仏典テキストを共有するプロジェクトでは、自動翻訳やテキストリユース検出技術の精度の高まりに高度な連携が志向され、研究代表者らが進める国際標準規格にもとづく研究データ構築の必要性はますます強く認識されはじめている。そのようななかで、国際標準規格策定に実績を持つSAT の関係者は、世界各地で開催されるシンポジウムやセミナー等に招聘され講演を行なってきている [参考情報]。
(4)生成AI の登場による人文学研究の変化への対応
ChatGPT に代表される生成AI の登場により大きな変革が予想されるテキスト研究において、今後の技術の展開やそれに対する規制のあり方など、現時点ですでにいくつかの具体的な方策が生まれている。これは2023年4 月のウィーン大学でのシンポジウムAdvanced Computational Methods for Studying Buddhist Texts でテーマとなり、研究代表者らは生成AI の積極的にして批判的な採用と人文学方法論の再考という今後の方向性を提案し、共有された。2024年4 月には国立台湾大学でAI と仏教学をテーマとする国際シンポジウムが開催され、研究代表者らの提案が合意された。そして、同年10 月には同様なテーマのシンポジウムがUC Berkeley のAI 研究室により開催され、ここでは、新規に開発した、生成AIのRAG (Retrieval-Augmented Generation)を用いた仏教学研究支援システムについて発表とデモンストレーションを行ない、生成AIの学術研究における活用可能性の道を示した。本研究課題においては、この分野で最先端をゆくUC Berkeley のAI 研究室で仏典テキストのAI 研究を進めるSebastian Nehrdich を研究協力者として、本格的解明を図ってゆく。
本研究は、SATDB の中核をなす一億字超の漢字からなる「大正蔵」全85 巻の仏典全体をウェブ上で共同作業によって改訂し再編纂して令和大蔵経の編纂を開始するとともに、それを支えるあらたな仏教学コモンズ「共創的デジタル学術プラットフォームCRDIH(Collaborative Research Database for the Humanities)」を構築する。この一連の研究のプロセス全体を研究対象とし、研究者、情報技術、研究ワークフローが複雑で動的な相互作用をなしつつ人文学知を構成する洞察成果を人文学全体に提供する。
これに先だち、研究代表者らは、仏典テキストの写本や版本の画像に対し高い精度を持つAI駆動型OCR を用いて校合を行うシステムSATed を開発し実用段階に入っている。SATed は、OCR ソフトが生成した高精度なテキストデータと、研究代表者らがマニュアルで精度を高めてきたSAT DBのテキストデータとの間で、自動的に同一経典同士を比較し、文字単位で相互に異なる箇所を提示する機能を有する。この相違箇所表示機能は、SATDB データと比較した場合のOCR のデータの相違とともに、SATDB データと各写本・版本との校異(異読)情報をも提示することになる。
従来のテキスト校合では、1 文字ずつ版面を目視により確認しなければならず、デジタル画像が広く利用されるようになった現在も、東アジア言語の古典籍古文書ではOCR の精度の低さも重なって、きわめて労多き作業となり、研究者はこの困難な作業の前に身動きが取れなかった。SATed をとおして格段に精度の高い比較情報が提示されることで、この労力が飛躍的に軽減される。これにより研究者は相違する箇所を一挙に一覧し、その相違を考察するという本来なすべき高度な仕事に集中することが従来に比べてきわめて容易になる。1500 年を超えて東アジアから中央アジア一円に伝播した漢語仏典の歴史的展開を検討し判断する環境が、このCRDIHにおいて整えられるのである。図 2 のように、CRDIH を構成するのは、大正蔵が編纂の根拠とした、各種木版大蔵経における15 万~19 万コマの版面画像や敦煌写本等の画像、そして図像を扱う諸写本である。これらをSATedにより一字単位で自動的に比較し、他の多様な研究リソースと統合的に扱う研究環境を実現する。
CRDIH における一連の学術的作業については常時記録を残すことで、改訂責任の所在と研究者個人の評価、さらにその知の構築過程を明らかにする。テキスト校合作業については、研究者が目視で判断して報告する。
この作業全体を集約し、それにもとづきシステムの開発・改良を実施する。最後の工程で、その学術的質を確認し評価するため、国内外の専門家からなる組織(CRDIH編集委員会)を設置し、その知見に従って決定する。この委員会は、本研究計画のなかで学術的質を確保するための核心的な役割を担う組織となる。他方で、この編集委員会にオーソライズされるか否かにかかわらず、校合されたデータは校合者の責任において公開され共有されることになる。これは、昨今の学術情報流通において重視されつつあるプレプリントの理念に沿ったものである。
以上の体制の整備と運用に必要な知見は、今後分野を超えてウェブ上での学術校訂版編集を進めるうえできわめて重要なものとなるため、記録、分析したうえで、人文学向けのガイドラインとして作成し、オープンアクセスの形で公開する。
デジタル研究基盤に向けたデータ構築の全体像については、オープンアクセスリポジトリ推進協会(JPCOAR)が研究データマネジメントプランに関する優れたガイドラインを提供しているものの、それのみでは人文学分野の固有の事情への対応は困難である。
本研究は、汎用的ガイドラインと人文学との溝を埋め、人文学を支援する意味をもつ。本成果を日本の人文学に還元するための人文学・情報学展開委員会は、2 ヶ月に一度オンラインで開催するとともに、年に1 度、対面での研究集会を実施し、本研究の状況について議論を行い、得られた知見を人文学各分野にフィードバックする。
なお大蔵経DB の校訂作業自体は将来にわたって継続してゆかねばならない。研究が進展するにつれ、研究の対象となる資料自体が批判に晒されて持続的に改訂されてゆくところに、デジタル媒体の顕著な強みがある。