科学データのオープン化

ようやく動き出したか…

理事長室から −オープンサイエンスの国際的な広がり−


実験データの管理システムは、私の研究者生活の中で多くの時間を費やしてきたテーマである。当初は、タンパク質結晶構造解析ビームラインで遠隔操作実験を進める上で、SPring-8の実験データストレージシステム上に存在する計測データを遠隔地にいる実験者にどう渡すのかから始まった実験データ取扱システムの研究が、その後2008年に出向と言う形で行った防災科学技術研究所・兵庫耐震工学研究センター(E-ディフェンス)の実験データ公開システムASEBI(*1)として、実験データ公開システムの完成形となった。2011年に出向が解けてSPring-8に戻ったあとに取り組んだSPring-8実験データリポジトリ(*2)で、まだ一部分ではあるもののメタデータと実験データの確実な紐付けを実装し、来るべきオープンサイエンス時代の幕開けに備えた。

ただ、SPring-8で測定される総てのデータを公開するためには、総てのデータを入れる箱がなければならない。巨大なストレージシステムは莫大な運営維持費が必要になる金食い虫でもある訳で、そのあたりを国としてどう手当していくのだろうか。
そして、ここで改めて科学研究データは誰のものなのかという議論をしてほしいと思う。
日本の場合、多くの研究者が研究費として使うのは科研費や、振興調整費といった税金が原資の費用である。
これらの研究データは、研究者1個人に帰属すべき性格のものではなく、一定の排他的独占利用期間が認められた国有財であると考えるべきである。それゆえ、個人の責による毀損や滅失があってはならない。そして排他的独占利用期間が終了した後には、速やかに広く国民に解放され、多角的に利活用されなければならない。
しかしながら、科学データは、生データを公開して終わりと言うものではなく、実際に利用可能なデータとして公開するためには、いくつかの大きな課題を解決しなければならない。
そのうち最も大きな課題は、実験条件といったメタデータの取得紐づけ問題、即ちそのデータがどういうプロセスで取得されたのかというメタ情報をデータに確実に紐づけなければならないということである。
記憶に新しいSTAP細胞事件、データの取り違えという初歩的なミスがあったとされているが、ある意味起こるべくして起こったともいえよう。
SPring-8という最先端の施設でさえ、潜在的にこの危険性を孕んでいる。それは、実験データと試料とを紐づけたり、実験データとその計測条件を紐づけたりする、計測データとメタデータの関連付けに人間が介在しなければならないためである。
例えば、非常に似たデータとなる試料AとBを測定するときに、試料Aを試料Bと誤認しデータを取り違えるというような不注意によるミスである。
このようなミスを完全に防ごうとした場合、試料の調製段階から一意の標識付与による経過追跡が有効であるのは間違いない。だが、現実にそれを行うことは非常に困難が伴う。試料の性状により識別付与が困難であったり、現場の研究者が煩雑を理由に導入に否定的であったり、導入のための費用捻出が困難であったりするためである。
また出来上がった試料の測定施設であるSPring-8でも、最先端ゆえに経過追跡を困難にする要因が存在する。先端の実験では、1パッケージ化された計測システムというのが存在せず、ここの機器を組み合わせて計測する事が多い。試料から発せられるなにかしらの物理量を電気信号に変換する計測器、その信号を増幅する増幅器、ノイズを軽減するフィルタ、数値として変換する計数器である。
それぞれの回路には、いくつかの調整パラメタが存在し、ダイヤルを回して設定するものや、コンピューターからのデジタル信号で設定するものなどが混在する。これらの値は、解析手法により、重要なものから、なくても支障のないものまであり、研究者によって、取捨選択され手書きのノートに記録されたり、テキストファイルや、エクセルデータとして、保存され、解析に利用されている。つまり、切り口を変えると解析に必要なパラメタが変わって来る事を意味する。つまり、現状のまま実験データを公共財として公開出来たとしても、当初の実験者が見ようとした切り口以外からの解析に堪えうるメタデータが紐づいている可能性はきわめて低い。現在の実験データの信頼性や可用性は実験者に委ねられているといえよう。
この問題の解決は研究データのオープン化を進める上で最も大きな課題であり、先端性を確保しながら、自動的に全ての実験条件情報を収集する仕組みの構築が急務である。

1: ASEBI

2: DEIM2013 SPring-8実験データリポジトリの構築(PDF)