■この記事のカテゴリー 時の人インタビュー/街のかお/学術・国文研
■この記事の掲載日 2011.01.25

時の人インタビュー

必見!国文研の心臓部。データベースはこう管理する。

アカデミックたちかわ――国文学研究資料館
国文学研究資料館  古瀬 蔵 さん・和田 洋一 さん

国文学研究資料館
教授 博士(工学)
古瀬 蔵(ふるせおさむ)さん
国文学研究資料館
管理部学術情報課学術情報係
和田 洋一さん

国文学研究資料館は、国文学の中でも
古典に関する資料を収集、保管、公開するのがその役目。
今月は膨大な資料公開へ取り組む、エキスパートの登場だ。

*

編集部

国文研の方の名刺に博士(工学)って書いてあるのを初めて見ました。工学部のことですか?

古瀬

そうです。工学部出身です。専門は情報処理。機械翻訳とか情報検索とかといったテキスト処理ですね。

編集部

工学部出身の方がなぜ国文研にいらっしゃるのですか?

古瀬

僕はここに来て四年です。それまでは長く民間会社の研究所にいました。民間の理工系工学部出身というとやっぱり技術です。
が、還暦まで技術畑でいられるかというと、還暦のITエンジニアなんて今まで見たことがない。あるところまで来ると、研究者としてのピークは過ぎて、その後は大学へいって研究を続けるとか関連会社で研究そのものではなく研究を活かしながら管理の方に関わるとか。
私もそういう節目に来まして、第二の人生というとおおげさですが、公募でここの教員になれました。
文学が好きかと聞かれれば、まあ嫌いではないけれど別に得意ではないですね。

編集部

文学知らなくてもやれるお仕事ではあるわけですよね。

古瀬

そうですね。中身に入らずともブラックボックスとして捉えてシステムを作って行く。ただ理解しようとした方が仕事はやりやすいです。
おかげで今まで知らなかった、源氏物語には原本がないなんてこともわかったし。源氏物語の登場人物十人まだ言えませんが。光源氏ね、恵まれ過ぎていて同情できない。(笑)

編集部

先生のここでのお仕事というのはデータベース作りですか?

古瀬

基本的にデータベース作りは文学の先生方に作っていただいて、私はそれをどう見せるかという、データベースシステムを運用というか、もっと高度に情報検索しやすくする。
ソフトウエアもハードウエアも環境が頻繁に変わるのでずっと動かし続けるというのは結構大変なんですが、作った当時のものがいつまでも良いわけではないんです。昔のカセットテープやCDも段々使えなくなってきています。
計算機の世界はそういうことが非常に激しくて、維持するということは新しい環境でも使えるようにしてあげるということ。古い機能のままだと利用者も利用してくれなくなりますからね。
国文研のデータベースに魅力を感じてもらえるようにできるだけ高度な機能を、といっても高度すぎず。文学の研究者の方々にも広く使っていただけて、かつそれでいて高度な機能でアクセスしてもらいたいということでしょうか。

編集部

和田さんは何をなさっているのですか?

和田

データベース全体の事務的とりまとめのようなことです。
プラス全体の中の一部のコンテンツを担当しています。

編集部

国文研のHPにはデータベースのコーナーがありますが、あそこは先生方が作っていらっしゃる?

古瀬

最終的には。

編集部

最終的といいますと?

古瀬

先ほど言いましたようにデータベースそのものは文学の先生方がそれぞれ作っています。ですがときどきゲリラ的にデータベースを作って来られるときがありまして、もちろんこれを公開してよいかとか国文研の資源を使ってまで公開する価値があるのかとか審議はします。

編集部

資料を公開していく上で今抱えている問題点は何ですか?

和田

画像はやはり公開していくべきだということで、当館所蔵の和古書や所蔵している方のところへ撮影に行った資料など、山ほどあります。
許可がとれて公開できるものはしようという方向性にはあるのですが、とにかくすごい量。何十年かかるかわからない。やっているんです。やっているんですが、例えば当館蔵の和古書のほんの一部を撮影しただけでその画像が10テラバイト越えちゃったんです。

編集部

それをどんどん公開する‥。

和田

それがまだこちらが対応できていなくて、どんどん撮っちゃって保存、保存。全部撮影したらどのくらいの量になるのか‥‥。ちょっと解決方法は模索中としか言えないです。

古瀬

作った後も問題でして、電子化してあればいつまでもあると思われがちなんですが、やっぱりある時ポッと無くなってしまうというのが電子ファイルの怖いところ。紙だけでなく、電子的なところにも以前登場されていた青木先生みたいな保存管理の専門家が‥‥(笑)。

編集部

必要なんですね(笑)。

古瀬

必要ですね~。USBメモリーなんて、入れてたデータが五年くらいでなくなると言われていますし、ディスクも‥‥。

和田

ディスクも同じです。昔のDVD-RAMが結構あるんです。でも読み出せるドライブがない。DVD-RAMってケースに入っているDVDみたいな‥‥。

編集部

四角いケースに入っているものですよね?

和田

そうです、そうです。そういうのが何千枚かあって、開けば読めるという形式のものもあるのですが、開ける作業も大変だし、また開けられないタイプのものはアウトです。

古瀬

まず読み出す機器の確保。読み出せないとどうしようもないので、それを確保する。その間に次のメディアに対策を考えないと。

和田

媒体に変換を考えないといけない。常に目配りしていないとだめです。

古瀬

こういった所にも管理の予算と人が欲しいですね。データを作ることに気持ちが行っていると、作ったものがどうなっているのかが抜けてしまう。

編集部

作っただけじゃないんですね。

和田

画像だけじゃないですよ。データもデータベース自体が廃れてしまうことがあるので、とにかく常に抑えておかなければならないというか。

編集部

すごい仕事量ですね。こういった問題は一般企業や事業所などでも感じているのではないですか?

和田

でもここは古いものを保存しておくことがミッションなので、プレッシャーは感じています。

編集部

問題としてはやっぱり画像が一番ですか?

和田

最近のトレンドというか、方針として画像公開を打ち出しているので、画像の問題が浮き彫りになるんですね。

古瀬

画像の問題としてはどのくらいの鮮度、質で画像を出すか。古いのは重いし。

和田

今は規格が決まっていますが、古いものは古い規格で撮っているのでしかたないです。モノクロ2値っていうのがあって、結構粗い感じですが仕方ないかなと。

編集部

実はえくてびあんで苦労しているのは画像データの色です。画像を国文研から提供していただいても、実物を見ていないですから、印刷した時に本当にその色でいいかどうか私たちにはわからない。

和田

紙焼きを一緒につけてもらうしかないですよね。

編集部

多摩てばこネットの記事とリンクして「画像はこちら」ってしたら、えくてびあんは楽です。館蔵はどのくらいもうアップされているんですか?

和田

一万数千点あると言われている和古書の中から千五百点くらいかな。

編集部

あ、そんなに公開しているんですね。でもその中にリンクしたい画像がなかったら問題ですね~(笑)。

和田

マイクロフィルムの分を公開するとなると桁ちがいですよ。数十年かかってしまう。

編集部

その間にシステムが変わったり‥‥。

古瀬

人も変わるし。画像だけじゃないですよ。テキストも結構ある。
目録が多いんです。テキストの保存も公開も、本のどこ、何ページの何行目にどう書いてあるかっていう状態を残してテキストデータとして出すことが求められる。
書き込みがあったら、書き込みにまた書き込みがあったらどうするか。
現在は使われていない漢字とか、判読できない部分とか。それをどうやってテキスト化するか、漢字の「へん」だけわかっているものをどう決めつけるか。
改ざんすると問題ですから。それらをまじめに考えると大変です。

編集部

そんなの画像でポンと出せばわかるわけですよね? なぜテキストにしなきゃならないんですか?

古瀬

検索する時にやっぱりテキスト化されているとありがたいという声があるので。

編集部

先生の研究と事業にはどういう違いがあるのですか?

古瀬

まあ両方が近い。いわゆる応用研究なのでデータベースというキーワードは共通です。研究の部分で冒険できる部分と事業の部分で堅実にやらなきゃならないところと。
ようするにディベロップメントです。サイエンスというよりテクノロジー。

編集部

研究開発っていえばなんとなくわかりますね。先生も和田さんも大変なお仕事なさっていますよね~。


必見!国文研の心臓部。データベースはこう管理する。 アカデミックたちかわ――国文学研究資料館