データの消失や管理不全によって悲惨な結果を招く研究者は、後を絶ちません。研究者は「自分のデータは安全」と信じたがりますが、それはまったくの思い込みです。この記事では、研究者にとってのデータ管理の重要性について取り上げます。
中国は、国内のすべての研究者に対し、国のリポジトリで科学データを共有し、データセットをオープンにすることを義務付ける方策の導入を最近発表しました。EUをはじめとする地域がデータ保護関連の法規制の導入を予定しているのと同様に、中国もデータの安全性確保に向けて歩みを進めていることになります。データセキュリティに関する選択肢の増加は、研究生活にどのような影響を与えるのでしょうか?この記事の執筆中、博士号の取得を目指す友人から偶然にも連絡があり、その友人の同僚を襲った悲惨な出来事を耳にしました。その同僚は、研究データを保存していたハードディスクを紛失し、5年分のデータをすべて失ってしまったのです!
研究データの管理を怠ると、こういったことが起こるのです:
Dr Lucie Bea D@MissElvey
@theflyingeditorアドバイス:バックアップは欠かさずとりましょう。私は、博士課程在籍中に3台のノートパソコンが壊れ、大部分の研究データが失われるという経験をしました。
Hugh Kearns @ithinkwellHugh
金曜日ですよ!バックアップの日です。
ハードディスクがクラッシュ。メモリースティックを紛失。消えた作業のやり直しは最悪。
#ECRchat #PhDchat
神聖化された学術界においても、データの消失や管理不全によって悲惨な結果を招く研究者は後を絶ちません。博士号の取得をあきらめる寸前まで追い込まれることや、取り戻したデータの範囲で実行できる研究に舵を切らざるを得なくなることもあります。物理学・医学系の大学院生であれば、研究室に自分の研究データを保存しているはずです。人文科学・社会科学系の博士課程の学生のハードディスクには、音声や動画などの記録データが溢れんばかりに詰まっていることでしょう。
研究者は「自分のデータは安全」と信じたがりますが、それはまったくの思い込みです。博士課程の道を邁進し、研究費の獲得や就職活動などのさまざまなタスクに追われていると、研究の土台となる「データ」を軽視しがちです。長期的に研究プロジェクトに取り組むためには、リソースを絶えずアップグレードすることによってデータを豊富に生成し、成果物として成立し得る道筋を複数用意しておかなければなりません。プロジェクトを成功裏に完了させるためには、研究データの適切な管理が不可欠なのです。この記事では、研究者にとってのデータ管理の重要性について取り上げます。
データの保全が重要である理由
研究の世界におけるデータとは、研究の質と完全性を示す役割を持つ、きわめて重要なものです。したがって、研究者なら誰もが、効果的なデータ管理の方法について関心を持つべきです。所属研究者がデータの保管・アクセス・利用を行えるデータ管理システムを設置する大学は、急速に増えています。
責任あるデータ管理は、科学界が抱える大きな課題の1つである「再現不可能性」を解消する鍵となる可能性もあります。データ利用の多様化という観点で言えば、登録されたデータを効率的に管理し、適切なフォーマットで保管することで、集めたデータを、さまざまな方法で多角的に利用できるようになります。また、異なる研究者による同じデータセットの反復を識別できるようにもなります。データへのこのようなアクセシビリティは、科学の再現性の保証に欠かせない要素です。
さらに、効果的なデータ管理を行うことで、研究成果や論文出版に大きな影響を及ぼし得る、データの消失を防ぐことができます。先述した友人の同僚は、消失したデータを取り戻すのに、これから何年も費やすことになるでしょう。
研究のアクセシビリティ:未来への鍵
データへのアクセシビリティは、先行研究を基に新たな知見を生み出すために不可欠であり、データ管理においてきわめて重要な要素です。シュプリンガー・ネイチャーの調査よると、「回答者の70%以上が、今後生み出されるすべての論文、学術書、研究データをオープンアクセス化することに賛成と答えており、司書の91%が、“オープンアクセスは学術・科学出版の未来である”という考え方に同意」しています。これを達成するために、科学のあらゆる利害関係者たちの間で、責任あるデータの保存だけでなく、データのアクセシビリティ向上を重要視する気運が高まっています。
テクノロジー企業やエンジェル投資家は、研究者向けにさまざまなアプリケーションやサービスを提供しています。Mendeley、Readcube、Endnoteなどのアプリケーションソフトにより、社会科学・人文科学系研究の大部分を占めるテキスト中心のデータの保管や参照だけでなく、自然科学や物理科学の論文の閲覧や注釈付けが可能になりました。
機関や研究室が主導するデータを、プロジェクトに携わる人々の間だけでなく、第三者とも共有しなければならない機会は少なくありません。高まるオープンデータ化への気運は、オープンアクセスやアクセスを共有するプラットフォームでのデータ公開を、研究者に迫っています。
今日では、効果的なデータ管理方法として、識別子やリポジトリの重要性が増しています。これらのツールの利用には、以下のようなメリットがあります:
- 研究の保護:アクセスポイントやアクセス範囲を設定できるため、アクセスを限定的に許可しながら迷惑な侵入者からデータを守ることができる。
- データのブランディング:自分の研究を最先端のものとしてブランド化できる。
- アクセシビリティの向上:データセットを1ヶ所にまとめることができるため、データの利用が容易になる。
また、データを保持しておき、新たな調査に利用することもできます。世の中には研究が溢れているものの、そのすべての質が高いとは言えないため、研究のブランディングは重要です。識別子やリポジトリを利用することで、研究を差別化できるだけでなく、研究を1ヶ所で安全に保管することができます。これらのツールは、研究データ群を管理してくれるだけでなく、その安全性を保証してくれるものでもあります。
大切なデータを管理するためのペストプラクティス
具体的なデータ管理計画は、信頼性を示し再現性を保証するものであるため、資金調達のための書類、助成金の記録、重要な公的文書において、今や欠かせないものとなっています。このことを踏まえて、研究データの安全性確保と管理のためのベストプラクティスを紹介します:
- クラウドサービスのプロバイダーの個人アカウントを利用するか、(もしあれば)大学のデータ管理システムを利用して、データを可能な限りクラウド上に保存する。これにより、データ消失のリスクを最小化できる。
- データをフォーマットして、見つけやすくするとともに使いやすくする。こうすると、とくにデータが公開・共有されている場合は検索が容易になる。標準化されたメタデータは、国際的なベストプラクティスとして、現在多くの助成金契約において重要志されている。データを保管・区分・フォーマットする際は、アプリケーションソフトを効果的に活用する。
- 管理データのオープンアクセス化は、任意ではあるものの、データの保存・共有が重要視され始めた昨今、強く推奨される。
- 日々蓄積されるデータをシステマティックに保存することを習慣化する。識別しやすくアクセスしやすい領域で、データを分類・フォーマット・保管する。
データは、研究者にとっての金鉱にたとえられることがよくありますが、この表現は意外と的確かもしれません。研究データは、多大な資金と時間とリソースを投資した結果として生み出されるものです。データの保管やアクセシビリティの向上は、科学を進歩させるための鍵であり、データの管理は、すべての研究者に絶えず付きまとうテーマです。科学コミュニティが前進するためには、データ管理の重要性への意識を、さらに高める必要があるでしょう。
データの管理やアクセスについて、どのような考えをお持ちですか?ご意見や体験談などを、ぜひお寄せください。
関連記事: