学術機関リポジトリ(Institutional Repository)は概念であり、特に特定の機関や組織を学術機関リポジトリと呼ぶ、というわけではありません。しかもまだ完全に確率された概念というわけでもなく、人によって捉え方や理解の仕方に差があるものと思われます。
とりあえず、日本語で学術機関リポジトリについて、簡潔な定義を行っているのは、国立大学図書館協議会図書館高度情報化特別委員会ワーキンググループによって作成されたレポート「電子図書館の新たな潮流〜情報発信者と利用者を結ぶ付加価値インターフェイス」です。この中で「学術機関リポジトリによる学内学術情報の発信強化」という一節を割いて学術機関リポジトリの定義と実例を紹介しています。
学術機関リポジトリの定義は、同レポートによれば以下のようになります。
学術機関リポジトリ(Institutional Repository)とは,大学および研究機関で生産された電子的な知的生産物を捕捉し,保存し,原則的に無償で発信するためのインターネット上の保存書庫である。学術機関リポジトリに含まれるコンテンツとしては,学術雑誌掲載論文,灰色文献(プレプリント,ワーキングペーパー,テクニカルペーパー,会議発表論文,紀要,技術文書,調査報告等),学位論文,教材などが考えられる。また,学術機関リポジトリの存在意義としては,以下の点を挙げることができる。
こうした概念が出てきた背景は、特に最後の項目“商業出版社が独占する〜”に見られるように、いわゆるジャーナルクライシスに対する学術情報流通の解答として成立したSPARCの活動の影響が強くあります。(「機関リポジトリ擁護論:SPARC声明書」)
海外の実例は上記文献を参考にして頂くとして、日本でもこれまでに学術機関リポジトリ的な活動が無かったわけではありません。例えば筑波大学電子図書館では、学内生産物(学位論文・各種研究成果・研究紀要等)を収集・電子化して利用に供してきました。しかし、それはどちらかというと大学のアカウンタビリティの面からの施策であり、学術情報流通という視点は、これまで持ち得ませんでした。
日本でも、昨今の海外雑誌価格の高騰と、それに反する大学図書館での予算の削減という状況(日本の「ジャーナルクライシス」)にあって、学術機関自らが学術情報流通の中核を担う学術機関リポジトリの概念が急速に注目を浴びるようになりました。
学術機関リポジトリは、学術機関がその中で生産された各種生産物を収集・発信する仕組みであるのですが、膨大な数の情報資源を図書館なら図書館が全て把握して収集・組織化・保存・発信を担当するのは、ものすごい負担であることは明らかです。そこで発想の転換。
「こちらが集めるのではなく、向こうから図書館へ集めてもらえばいい。」
つまり、生産物を生産者(研究者)が自ら登録することで、自然とコレクションが構築できるようなプラットフォームを作ろうという考え方です。簡単に言えば、アップロード自由のスペースを用意しておいて、そこへ投稿してもらうのです。
DSpaceは、マサチューセッツ工科大学(MIT)とヒューレットパッカードが共同開発した、オープンソースのリポジトリ構築ソフト(プラットホーム)です。現在、SourceForgeで開発・公開が行われています。
DSpaceでは、標準で各種データ(PDF/HTML/JPEG/MP3等)の投稿機能、投稿の際に付与されたメタデータ(ダブリンコア / Dublin Core Metadata Element Set)の検索に対応し、またそのメタデータを利用したOAI-PMH(日本語訳)のメタデータ・ハーベスティングに対応しています。また、SFXサーバが稼動していれば、メタデータを利用したOpenURLの表示ができますし、送られてきたOpenURLは検索モジュールへ転送されます。
DSpaceはUNIX系OSの上で動作するJavaサーブレットアプリです。Linux系OSで動きますし、JavaSDKやRDBMSなど、動作に必要なミドルウェア・ソフトウェアは全て無料で入手できるものなので、そこそこの性能のあるパソコンとネットワーク環境があれば、とりあえずDSpaceを動かす環境が整います。実際に外部に公開するためには別のハードルがありますが。
以下に、DSpaceの実際のインストールの際に問題になったポイント等をメモ書き程度にまとめています。原則的に国立情報学研究所メタデータ・データベース共同構築事業・学術機関リポジトリ構築ソフトウェア実装実験プロジェクトで作成されたインストールガイドを参考にしますが、そこに漏れていた部分を中心に。
主にNIIで作成したインストールガイドを参考にした。
http://www.nii.ac.jp/metadata/irp/manuals/dspace_install.pdf
また適宜NIIで翻訳したDSpace自体のインストールマニュアルも参照した。
http://www.nii.ac.jp/metadata/irp/dspace-docs-jp/install.html
トラブルシューティング等は、SourceForgeのMLを参照(英語)。
http://sourceforge.net/projects/dspace/
PostgreSQLは、必ず古いバージョンをアンインストールすること。
Fedora Core等、パッケージでPostgreSQLをインストールできる時でも、
どうせバージョンアップするので、初めから入れない方がいい。
初めからインストールしてしまうと、Fedora1の場合、/home以下に
postgresのホームディレクトリができず、ユーザーpostgresでの作業が
やりにくくなってしまう。また旧バージョンのアンインストールを
せずに新しいバージョンをインストールしてしまうと、新旧バージョンが
色々競合したりするらしい。
PostgreSQLが入ってたら、予め rpm -e でさっさと消しましょう。
依存関係が結構あるので、エラーメッセージを参考に片っ端から
アンインストールすること。
PostgreSQLでdspace名義のデータベースを作成する時は、以下のような コマンドを打つ。 DSpace本家のインストールマニュアルにはちゃんと書いてあるけど、 なぜかNIIのインストールガイドにはこう書いていない。NIIの通りに やろうとすると、DSpaceのインストール時にユーザーdspaceの Authoricationに失敗してしまって、データベースに書き込みができなく なってしまう(パスワードがうまく認識されないらしい)。
postgres$ createuser -U postgres -d -A -P dspace postgres$ createdb -U dspace -E UNICODE dspace
dspace.confを修正する時、db.urlの項目を以下のようにすること。
ちょっと考えれば分かるんだけど、NIIのインストールガイドの通りに書くと、
ユーザー名dspaceの"postgres"というデータベースを探しに行ってしまって、
index_allや create_administratorの時にエラーになってしまう。
db.url=jdbc:postgresql://localhost:5432/dspace
DSpaceで表示されるWebコンテンツの中身は、DSpaceをインストールした
ディレクトリのjspディレクトリの中にある。
そこにlocalというディレクトリを作成すると、その中のファイルが
優先して読み込まれる、というようになっている。
localディレクトリを作っておけば、DSpaceをバージョンアップした時でも
改変したjpsファイルがそのまま残るという仕組みらしいが、localを作って
何も考えずにその中に色々入れておくと、コンテンツの読み込みが異常に
遅くなるという現象が発生する。
これは、style.css.jspのlocalVersionに関する部分の削除忘れが原因。
本家のマニュアルにはちゃんと書いてある。
少なくともインストールした環境では、NIIのインストールガイドの
末尾に書かれていたスクリプトで自動起動がうまくできなかった。
原則としてガイドの通りでいいのだが、Jakarta TomcatとPostgreSQLの
起動コマンドを以下のように変えてみる。
# Tomcat start su -l dspace -c $TOMCAT_BASE/bin/startup.sh # PostgreSQL start su -l postgres -c "$POSTGRE_BASE/bin/pg_ctl -D $PGDATA -p $POSTGRE_BASE/bin/postmaster -o -i start > /dev/null 2>&1" < /dev/nullこれで自動起動に成功した。
ユーザーやコミュニティの登録時に、Internal Errorが出る時がある。おそらくPostgreSQLのエラーだと思われるが、エラーになっても登録されているので謎である。また削除時にもエラーが出る時があるが、こちらはエラーがでると(ちゃんと?)うまくいかない。MLに何か出ているかも知れない。
DSpaceに登録できるファイルサイズの上限は、dspace.confで設定されている512MBのはずである。しかしなぜか1MB以上のファイルを登録しようとすると、アップロード後に「サーバーが見つかりません」エラーが出たり、登録エラーになったりする。PostgreSQL側の設定か、あるいはAppachのタイムアウトが絡んでいるのかも知れないが謎。原因と対策を調査中。
→9月7日、何事も無かったかのように解消。100MB超のファイルの登録も、問題なく成功した。ネットワークの経路的な問題か?