所収: 『早稲田大学情報科学研究教育センター紀要』Vol.3 1986年3月
東洋学におけるコンピュータ利用の一例および問題点と展望
平川彰・三崎良周・菅原信海・福井文雅・江島恵教・清水光幸
概要
本研究は、筆者達が日本印度学仏教学会の機関誌『印度学仏教学研究』所載の論文6,271件を内容とする文献データベースである「印仏研データベース」を作成する過程で直面した問題点を明らかにし、今後の対策を具体的に提案することを目的とする。
初めに「印仏研データベース」の作成過程と「リレーショナル操作」などの有効性について述べ、次に「外字・漢字異体字・同意語」についてのデータの互換性という問題点を示すとともに、それぞれの対策として「文字標準化・KTSアルゴリズム・シソーラス作成」を提案し、最後に東洋学の一分野としての仏教学におけるコンピュータ利用の将来像として「コンピュータ大蔵経」の展望を試みる。
東洋学は文科系の中でも異質な多言語にわたり文字種も多いため、コンピュータには最も適応し難いように思われがちであるが、このような分野であるからこそ、コンピュータが有効に利用できるようになると測り知れない利便がもたらされるのである。そこで、当面する最も重要な課題である漢字をはじめとする膨大な文字種の国際的標準化について、特にその必要性を訴えるものである。
- キーワード
- 東洋学、インド学、仏教学、データベース、文字標準化、KTSアルゴリズム、コンピュータ大蔵経
はじめに
東洋学におけるコンピユータ利用は、いくつかの機関でデータベースなどを中心として徐々に始まりつつある。大規模なものとしては、京都大学人文科学研究所附属東洋学文献センターの「CHINA3」があるが、これは『東洋学文献類目』という印刷物としての目録を刊行することに主に使用されており、キーワードのフィールドが設けられておらず、タイトル・サブタイトルに「分かち書き・区切り記号」なども用いていないため、キーワードによる自在な検索ができるようになっていないようである〔1〕。
インド学仏教学関係においても、コンピュータによる研究は幾人かの研究者によつて始められている。田端哲哉氏によるパーリ・サンスクリット文献の索引作成の研究〔2〕、大室照道氏〔3〕.筑後誠隆氏〔4〕によるコンピュータ利用法の研究、吉元信行氏によるワープロソフト利用法の研究〔5〕などがある。
しかし、
それぞれ個別に行われているため、パーリ・サンスクリット・チベット語用の特殊なアルファペットの表記法に統一がなく、標準化した方式でデータを共有できる状態にないことは、筑後氏も指摘の通りである。
以上の研究による問題点をも踏まえて、本稿では、東洋学におけるコンピュータ利用の一例として日本印度学仏教学会の機関誌『印度学仏教学研究』所載の論文6,271件を内容とする文献データベース「印仏研データベース」作成を紹介し、その過程で直面した問題点を明らかにし、その対策を具体的に提案することを目的としている。また、「印仏研データベース」は論題・副題だけではなく、本文からもキーワードを選択して入力したために、今までの印刷物としての索引では不可能であったより緻密な論文検索が可能となっている。
第1節において「印仏研データベース」作成を紹介する際に、キーワードによる検索に「リレーショナル操作」を有効に機能させるための「キーワードフィールドの定義・区切り記号の使用」について説明し、第2節では当面する問題である「外字・漢字異体字・同意語」におけるデータの互換性を解決するための今後の対策として、それぞれに「文字標準化・KTSアルゴリズム・シソーラス作成」をできるだけ具体的に提案する。第3節においては、東洋学の一分野である仏教学におけるコンピュータ利用の将来像として「コンピュータ大蔵経」についての展望を試みる。
1. 「印仏研データベース」の作成
データベースの内容として、各論文の「論題・副題・著者名・ふりがな・巻号頁・発行年月・平均7個のキーワード」を入力した。なお、キーワードの選択は、今回は学会理事長自身がすべて行った。ハードウェアは、IBM5550およびNEC9801。いずれもハードディスク付き。ソフトウェアは、データベースソフトとして「漢字データボックス」・「R:BASE4000」を使用。5550のハードディスクは8メガしかないため、データ記憶領域の少ない「漢字データポックス」を主に使用し、このソフトの仕様に限界がある時は、9801の20メガのハードディスクにデータを移して「R:BASE4000」を使用した。便利な索引作成アプリケーションプログラムはいずれによっても組めないため、BASICによってプログラミング・コンパイルした。
データ入力の際には、仮名漢宇変換ソフト「VJE-α」に仏教語などを旧字も含めて約6,000語登録しながら、文章一括変換機能を利用して入力した。
巻号頁は、例えば「11巻2号869頁」という場合は「1120869」の7桁のコード番号にして入力することによりインデックスとした。
キーワードは、さらに「時代・地域・分野(学派・宗派・教理など)・人物・文献・その他」の各欄に分け、区切り記号「;」で囲んで(例1「;仏;」、例2「;阿弥陀仏;仏陀;」)入力した。
よつて、例えば人名または術語としての「真諦」は、
「人物」と「その他」の各欄で区別して検索できる。また、区切り記号を含まない「:仏:」あるいは「contains“仏”」によると、「仏」を含むキーワード(例1と例2ともに)を持つ論文が検索できるが、区切り記号を含む「:;仏;:」あるいは「contains“;仏;”」によれば、「仏」だけの意味のキーワードのみ(例1のみ)を持つ論文だけを検索できる。
一般のデータベースと同様に、 and(積集合)・or(和集合)・not(補集合)を用いたリレーショナル操作も可能である。
例えば、
「インド仏教および中国仏教における論理学または認識論に関する論文。ただし、陳那に関する論文は除く。」の内容で検索すると次のようになる。陳那については、検索済みと仮定した。{ }は、その中に書かれたものに関する論文の集合を示す。
A={分野・仏教}、B={地域・インド}、 C={地域・中国}、D={分野・論理学}、 E={分野・認識論}、F={人物・陳那}、
検索式=A and( B or C )and( D or E )and ( not F )
あらゆる検索内容は、以上のように表現でき検索可能となるから、一語対応の印刷物としての索引よりもはるかに便利であるのは明らかである。しかし今回は、コンピュータを持たない人のために索引も印刷することにした。IBM5550・NEC9801については、フロッピーでのデータ配布も可能となっている。
なお今後、自動着信モデムを設置することになれば、MS-DOSの動作する機種ならば、モデムまたはカプラーを使用して電話回線によって、いつどこからでもアクセスできるようになろう。すなわち、無人運転の「印仏研データベース」システムのホストが出来上がることになる。
2. 現時点における問題点と今後の対策
(a) 外字を含む文字種の互換性
JISの1バイトコードは、米国ASCIIコードによるため、独・仏語がサポートされていない。アルファベットの外字は、半角1バイト文字で作成したいのだが、今までは漢字と同じ大きさの全角2バイト文字でしか作れなかったので、「印仏研データベース」ではサンスクリットなどのローマ字表記が見にくくなっている。最近になって1バイトの外字の作れるソフトが開発されつつあり、これによれば文字を自由にデザインして配列し直した仮想キーボードが設定できるようになる。欧米各国語にサンスクリット・チペット・ピンイン・ハングルなどのローマ字表記を加えて配置し、ソフト上でキーボードを再定義することにより学会標準の仮想キーボードを設定できる。キー前面に文字シールを貼って使用することになろう。この学会標準仮想キーボードに準拠すれば、1バイトコードの文字の互換性が保てることになる。 2バイトコード文字は、JIS第二水準以内に無い外字を割り振るコードの範囲が各メーカーごとに異なっているため、異機種間では外字データを容易に変換することが出来ない。外字のデータを共有できないというのは、外字を作成することの多い東洋学においては大きな損失である。第二水準以内の漢字は計6,353文字であるが、東洋学においては少なくとも2万字は必要である。現代中国語の簡体字を含むと約3万字以上は必要となろう。また、俗字・略字などの異体字もその歴史的・地域的特性により貴重なデータを提供してくれるはずであるから、学術上は約6万〜8万字は必要となろう。
以上のことから、文字種の多い東洋学や世界の文献を扱う図書館などに限ってでも、現在の2バイト文字については3バイトコードを採用することが望まれる。3バイトコードで文字標準化されれば、一挙に1,500万字以上がコード化出来ることになり、漢字のみならず全世界・古今東西の文字文化のすべてを網羅できるコンピュータシステムが実現することになる。もちろん、他に大量の文字種を扱う良い方法があれば、3バイトコード化にこだわる必要はない。
(b) 漢宇テキスト検索アルゴリズム――「KTSアルゴリズム」
今回の「印仏研データベース」作成に際して、はじめはテキスト通りに旧字・新字ともにそのまま入力したデータベース(1)を作成したが、それでは検索の時に新字と旧字で2回検索しなければならなくなるため、検索用として新字のみに統一したデータベース(2)を作成し、さらに9801用として外字コードを変換したデータベース(3)を作成、そして索引出力用には索引項目の同意語を統一した(「唯識派」と「唯識学派」をまとめて「唯識(学)派」など)データベース(4)というように、(1)から(4)までの4種類のデータベースを作成しなければならなかった。最初のデータ入力そのものは約7ケ月で終了したが、他3種へのデータ変換と索引項目の調整・読み付け・プログラミングでさらに1年が経過した。
異機種への外字変換は、(a)項の文字標準化によって解決されることになろう。同意語の統一の問題については、次の(c)シソーラスの項で述べることにする。本項では、新字と旧字の変換をはじめとして、漢字異体字間の互換性の問題について、その対策として、清水の考案による「漢字テキスト検索アルゴリズム」(以下「KTSアルゴリズム」と呼ぶ)のプランについて説明する。
まず漢字については、各漢字の「コード・通し番号・総画数・部首・四角号碼・日本語読み(音読み・訓読み)
・中国語読み(ピンイン) ・朝鮮語読み(ハングル)
・互換異体字コード」などからなる漢字属性辞書を作成し、あらゆる属性によって検索やソート(並び換え)が出来るようにする必要がある。「KTSアルゴリズム」は、この辞書の互換異体字のデータを利用することによって、俗字・略字・簡体字などの異体字について単漢字レベルで互換性を持たせる機能を基本とするアルゴリズムである。
互換検索 例えば、「阿弥陀仏」という検索語を入力したとする。「弥」には「彌」があり、「仏」には「佛」という異体字があるから、
1×2×1×2=4通りの検索語(「阿弥陀仏」・「阿彌陀仏」・「阿弥陀佛」・「阿彌陀佛」)を、漢字属性辞書に基づいて自動的に作成し検索する。
欠落検索 更に、文字が欠けているテキストを検索可能にするために、自動的に検索語の頭から順に一文字ずつ欠落させて検索語とする。「阿弥陀仏」ならば一字欠落の場合、「弥陀仏」。「阿陀仏」。「阿弥仏」・「阿弥陀」が検索語となる。二字欠落の場合、「阿弥」・「阿陀」。「阿仏」・「弥陀」。「弥仏」。「陀仏」が検索語となる。これを指示した文字数まで欠落させて検索させる。
挿入検索 次は逆に、一文字ずつ間に任意文字記号(*)を挿入して、ワイルドカードのように検索させる。「阿弥陀仏」では、「阿*弥陀仏」
・「阿弥*陀仏」・「阿弥陀*仏」、同様に二字挿入ならば「阿**弥陀仏」・「阿弥**陀仏」・「阿弥陀**仏」という検索語が自動的に発生し、指定した文字数まで挿入して検索する。
「KTSアルゴリズム」の有効性 欠落検索・挿入検索のそれぞれに互換検索が適用されるので、この場合は欠落・挿入文字数を2文字までとして、全部で53組の検索語で検索することになる。この「KTSアルゴリズム」は、不確定なテキストや、本文そのままでなく趣意をとることの多い引用文を検索する際に有効となろう。また、検索語の文字数が多くなると爆発的に組み合わせ数が増加するので、一定の文字数を超える場合は「知識ベース」に基づき確率の高いもの(例えば、新字だけ・旧字だけ・簡体字だけ・例外)の組み合わせから検索するようにもできよう。三段階と欠落・挿入の文字数は自由に選択できることとし、欠落検索・挿入検索では別の単語と一致することがあるので、自動的に「シソーラス」上でチェックした上、必要ならば区別して出力するようにもできるであろう。
(c) シソーラス
シソーラスとは、データベースのキーワードに同意語関係・上下関係を付けて集大成した辞書のことである。この辞書を介すると、例えば「竜樹」一語をキーワードとして検索した場合に、自動的に同一人物を表す「龍樹・竜猛・龍猛・竜勝・龍勝・Nagarjuna・ナーガールジュナ・那伽閼勅樹那・那伽渇樹那・那伽阿順那」などの同意語(同意表音語も含めて)についても出力することになる。また「如来蔵思想」で検索すると、それに含まれると指定された「如来蔵・如来蔵性・如来蔵心・自性清浄心・如来蔵縁起・在纏真如」などに関するものも出力するようになる。
今回はシソーラスが出来ていなかったため、索引出力用のデータベースで同意語にある程度の統一を付けて、例えば「マンダラ」と「曼荼羅」と「曼陀羅」をまとめて「曼荼〔陀〕羅〔マンダラ〕」などという索引項目とした。
このシソーラスを形成する際に、たとえば今後の論文では「竜樹・Nagarjuna」のいずれかだけを使うようにするという考え方が「統制語彙」というものである。今後の検索を考えると一見便利になるように思われるが、シンーラスの完成した時がその分野の進歩の止まった時などと言われるような問題がある。文字種の問題も同様だが、数が多くて不便だからこそコンピュータを使う意義があるのであるから、あまり統制語彙にこだわらず、むしろシソーラスをも含む「知識ベース」へ向けて、よリー層充実させていく方向に進むべきであろう。何故なら、データ入力が続く限り、すなわち学問が進歩する限り、シソーラスは日々進化する生き物なのであり、また現時点でのシソーラスを知ろうと思えば、通信機能でリアルタイムに確認できるからである。
3. 仏教学におけるコンピュータ利用の将来像――「コンピュータ大蔵経」
本節では、文科糸研究領域におけるコンピュータ利用のイメージ拡大にいくらかでも資するところあればと考え、いささか空想的ながら敢えて上述の問題が解決され人工知能などが飛躍的に進歩したと仮定した上で想定される、東洋学の一分野である仏教学における「コンピュータ大蔵経」について、その利用法を描くことを試みる。
(a) 大蔵経の各経典・各論疏を、パーリ・サンスクリット・チベット・漢文・和訳・欧米各国語などにわたって対訳のあるかぎり、単語ごと熟語ごとに対応させてテキスト入力し、さらに『仏書解説大辞典』にあるような書誌データ(書名・略名・巻数・存欠・著訳者・生存年代・著作訳出年代・末書・写刊年代・現在所在場所・発行所・地域)をも付して、
「コンピュータ大蔵経」を構築していく。利用頻度の多い文献から入力することにより、利用価値はすぐに現われよう。
(b) テキスト入力終了と同時に、多言語コンコルダンスが完成する。著訳者その他の地域・時代まで知ることができるから、多変量解析などの統計的処理を加えることにより「統計学的文献学」が可能となろう。例えば、中国人の漢文体の特徴とサンスクリットからの翻訳漢文体の特徴を比較して、翻訳か偽撰かを判定する参考にできよう。著訳書の多い著訳者は、その文体の有意な特徴を抽出し、定かでない文献の判定に貢献するであろう。漢文テキストの場合は、活用がないため、あらゆる漢語について「KTSアルゴリズム」を自動実行させることにより、文献学的データ解析が自動化されることになろう。
(c) 基本語彙辞書は大蔵経のテキストと同時に、仏教学多言語辞書として出来ていることになるから、実用化の段階に入りつつある人工知能エキスパートシステムによって、サンスクリットなどの複雑な活用をはじめとする文法情報を知識ベースに蓄えることにより、各国語テキストの文献学的データ解析もコンピュータに自動実行させることができるようになるかも知れない。さらには機械翻訳システムの構築にも展開し得よう。ページをめくって文字認識する能力が高まれば、本をそこに置くだけで自動的に翻訳されているという時代が来るかも知れない。
(d) 人工知能に統計学的確率論理やファジイ論理、さらに拡大されるであろう自然言語的ファジイ様相論理などが組み込まれることにより、よリデリケートな問題も処理させることが出来るようになろう。自然言語を理解し推論エンジンを持つ人工知能の知識ベースに『阿含経典』を入力すれば、釈尊をシミュレーション(ものまね)することすら出来るようになるかも知れない。そこに仏教学者の成果を加えれば「原始仏教エキスパートシステム」が出来上がり、その分野の学問的質問に答えることが出来るようにもなろう。
(e) 同様にして、各宗派・学派のエキスパートシステムの構築される日が来るかも知れない。
おわりに
コンピュータが般若によって悟りを開くわけではない。記憶したデータを駆使して上手にシミュレートするのである。コンピュータは人間の指示通りにしか動かず、与えた命令(プログラム)や知識(データ)が間違っていれば、間違った結果を出力する。コンピュータは人間による被造物であり、人間を超えることはできない。よって、人間の仕事も無くなることはない。
人工知能の時代を迎えて、一次的資料の共有という「データベース」から、解釈を積み重ねていく「知識ベース」へと展開していくであろう。それを利用するソフトはエキスパートシステムである。文科系のあらゆる分野においても、整合性をもってシミユレートできるかどうかが試されることにより、学問としての完成度が測られる分野が出て来るかも知れない。このような研究を進めるにも、現在の文字テーブルでは如何ともし難いため、研究を中断している研究者もいる。
コンピュータに合わせて文字種を減らすというのは、コスト軽減・利益追求のビジネス界においてのみ認められることであり、本来はコンピュータを人間に合わせてこそ、コンピュータが生かされていると言える。文字種が多くて不便だからこそ、コンピュータを使おうと考えるべきである。従って、ビジネス志向の民間あるいは国家の制定を待つことなく、学会レベルにおいて、中国・韓国などとの国際的、かつ理工系との学際的協力のもとに、全世界の文字を網羅できるコンピュータ文字テーブルが提案される必要がある。一日も早く、学術研究に堪え得る国際文字テープルの標準化が達成されるよう、関係各機関の協力を強く期待するものである。
〔付記〕
「印仏研データベース」は、昭和59・60年度文部省科学研究費「一般研究B」の「戦後のインド学仏教学の研究動向に関する研究」を遂行する過程で作成されたものである。現在、大型コンピュータ上での動作を検証するため、大型への移行作業中である。
文献
〔1〕
86年2月28日〜3月1日シンポジウム「東洋学研究支援データベースの研究」(於京都大学大型計算機センター)における勝村哲也氏の発表「多言語を用いた情報特に目録の計算機処理」による。
〔2〕 『印度学仏教学研究』昭和58年12月号433頁。『A.R.I紀要』第3号1984年。同第4号1985年。
〔3〕 『印度学仏教学研究』昭和56年12月号120頁。同昭和59年12月号120頁。
〔4〕 『印度学仏教学研究』昭和59年12月号122頁。
〔5〕 『A.R.I.紀要』第4号1985年。
|