デイビッド・A・ペンドルバリー(David A. Pendlebury)氏は、1983年からクラリベイト・アナリティクス社(旧トムソン・ロイター、知的財産およびサイエンスビジネス部門)で引用分析官を務めています。大学と大学院で古代史を専攻した後、科学情報研究所(ISI)に翻訳者兼索引製作者として入所し、ISIの創始者であるユージーン・ガーフィールド(Eugene Garfield)氏の研究プロジェクトにも参加しました(同研究所は1992年にトムソン・ロイターが買収)。1987年にThe Scientist誌の研究部門を開設、2年後にはクラリベイト・アナリティクスのリサーチサービス・グループに参加し、ニュースレターScience Watchの発刊に尽力しました。同社リサーチグループのメンバーとして、世界の研究界における学術出版のトレンドや引用データを提供するデータベース、Essential Science Indicatorsの開発にも携わりました。連邦政府機関や世界中の学術機関、企業、科学出版社などとの仕事において、豊富な経験を持っています。
研究のインパクトを理解することはきわめて重要です。急速に変化を遂げる今日のデジタル化された学術出版業界では、研究のインパクトを評価する人々に新たな機会と挑戦が与えられています。今回のインタビューでは、ビブリオメトリクス(計量書誌学)に焦点を当て、クラリベイト・アナリティクスでの仕事についてお話を伺いました。また、同社が創設した、引用分析に関するイノベーションに贈られるユージーン・ガーフィールド賞についてもお聞きしました。
クラリベイト・アナリティクスのコンサルタントとしての主な責任はどのようなものですか?また、クラリベイト・アナリティクスの「Essential Science Indicators」データベースの開発の経緯について詳しく教えてください。
私は、情報の検索、研究の評価、科学の監視における引用分析の可能性と有用性を伝えることに力を入れています。Essential Science Indicators(ESI)は、2000年頃に当時のトムソン・サイエンティフィックでディレクターをしていたヘンリー・スモール(Henry Small)氏率いる研究開発チームによって開発されました。ESIは、誰もが簡単にアクセスできることを目的に、22の研究分野における論文、個人、組織、国、ジャーナル単位の出版・引用に関する10年分の統計データをデータベース化したものです。また、過去5年間に出版された被引用数が多い論文の共引用分析によって同定される、リサーチフロント(先端研究領域)に関する重要なデータも含まれています。共引用分析では、頻繁に共引用される論文間の類似性を見いだすことができます。論文の共引用関係の科学的分析・解析によるリサーチフロントの同定は、1970年代から1980年代にかけてスモール氏が開発した手法です。ESIのデータは2ヶ月に一度アップデートされており、類似サービスの中でも最新の重要研究情報がキャッチできるデータベースとして知られています。ESIは現在、インパクトファクターを含むJournal Citation Reportsを搭載するInCitesプラットフォームの一部になっています。このプラットフォームは、我々のWeb of Scienceのデータを使用して、多元的な研究評価と指標化を行うための出版/引用データをユーザーに提供しています。これらのツールやデータは、研究の構造や力関係に関する実態や、重要分野、成長が著しい分野、トップの業績を挙げている研究者を明らかにしながら、情報の検索・発見の支援を目的として設計されています。
ノーベル賞受賞者の予測などの特殊なプロジェクトにも取り組んでおられます。この点についても教えて頂けますか?
ユージーン・ガーフィールド(Eugene Garfield)氏がScience Citation Indexを開発した当初から、ノーベル賞を受賞するようないわゆるエリート科学者と平均的な科学者の間には、有意な差があることが我々のデータから明らかでした。ガーフィールド氏は(わずか数年分のデータで)1965年に、ノーベル賞受賞者は平均的な研究者と比べておよそ5倍の論文を出版し、被引用数は30~50倍であることを示しています。また、受賞者の大半は、専門分野での被引用数が上位0.1%という「古典」論文を少なくとも1本は発表していることも明らかにしました。クラリベイト・アナリティクスの研究者が、ノーベル賞の対象研究分野(医学・生理学、物理学、化学、経済学)における被引用数がきわめて高い(2000以上)論文をリストアップし、その著者や論文の内容、著者のノーベル賞受賞歴の有無を調べたところ、受賞歴がある場合が多いことが分かりました。その後、スウェーデン訛りの英語を話す人からの吉報をまだ受けていない研究者による被引用数の高い論文への注目を続けています。被引用数の多さと、受賞という形での仲間からの評価に相関があるのは、当然と言えるでしょう。どちらも仲間からの高評価が反映された結果であり、前者が定量的、後者が定性的な評価の結果なのです。
読者のために、ビブリオメトリクス(計量書誌学)とサイエントメトリクス(科学計量学)の違いについて解説して頂けますか?
ビブリオメトリクス(Bibliometrics)の由来は、ギリシャ語の「biblios(本/巻物)」と「metron(計量)」という言葉です。したがって、ビブリオメトリクスとは、書籍や学術誌などの出版に関するさまざまな計量を行うことです。かつては司書が、いわゆるコアジャーナルの特定や、使用頻度のパターン分析による科学的根拠を得ることで、蔵書の改善を図るためのアプローチとして使用していました。一方、サイエントメトリクス(Scientometrics)は、1960年代後半にロシアの博学者ヴァシリー・ナリモフ(Vasily Nalimov)氏が「naukometriya」という言葉を使用したのが始まりでしょう。「nauk」はロシア語で「科学」という意味です。したがって、ビブリオメトリクスを科学研究に応用したのがサイエントメトリクスです。サイエントメトリクスは、図書館が学術誌の分析を行うよりもはるかに広範な分析が必要で、研究業績、イノベーション、科学コミュニケーション、専門分野の構造や動向、助成を含む政治的状況などが含まれます。
ビブリオメトリクスの長所と短所について、どのようなご意見をお持ちですか?
「ビブリオメトリクスが何に役立つか」と「ビブリオメトリクスの使用に伴う危険性は何か」という観点で説明します。まず、ビブリオメトリクスが使い方によっては有用であることを明確にしておきたいと思います。ウィリアム・トムソン(ケルビヴィン卿)は、「関心対象を数値化できれば、より多くを知ることができ、数値化できなければ知識は脆弱なものになる」という言葉を残しています。「短所」としては、以下のようなことが挙げられるでしょう:
・不完全/不正確なデータを使用している
・疑問に直接に答えるわけではない指標を用いている
・単一または混在した指標に依存している(研究活動や研究のインパクトの多種多様な側面を表現するには不十分)
・同等の比較が可能な、相対的または標準化された基準を使用していない
・データ自体が意味を持つと考えてしまい、専門家の解釈を経ずに使われてしまう
ビブリオメトリクスというアプローチは、科学に関わる政策決定者や助成団体に誤解または誤用されていると思いますか?どのような形で誤用されることが多いのでしょうか。
そう思いますし、これはとても残念なことです。研究の評価や助成の決定を行うために、単純な単一計量システム(h-インデックス、インパクトファクターなど)が採用されているケースが余りにも多いと感じています。これらのシステムは、ビブリオメトリクス分析の有用性や価値を揺るがせており、研究よりも得点稼ぎに夢中になる研究者を増やすだけで、科学を腐敗させる要因になっています。このような誤用を防ぐ方法の1つは、引用分析が査読の補完材料であって、代替ではないことを理解してもらうことです。人々は、これらの指標を本質や品質を決定するものと捉えていますが、ビブリオメトリクスによる値はあくまで指標であって、有意性や価値を保証するものではありません。
絶え間なく進化を続ける科学界の中で、ビブリオメトリクスの課題は何だとお考えですか?
1つは、学術界(大学)を越えたインパクトを測る指標の必要性でしょう。もちろん、イノベーションに関する基礎/応用研究のインパクトを追跡することについては長い間、関心が寄せられています。クラリベイト・アナリティクスでは、50年以上に渡り、自社開発のDerwent特許データを用いたイノベーションの計量を行なっています。現在重要視されている研究テーマの1つは、被引用数がもっとも高い論文や重要な特許に引用されている論文の分析を行うことです。この研究により、学術界と産業界の重要な関係性を明らかにできるのではないかと期待されています。大学は、公的資金を研究に回すことを正当化するために、経済成長に自分たちが寄与していることをアピールする傾向が強まっています。ソーシャルメディアの普及により、研究のインパクトを測る新たな指標が登場し、大学による研究活動が社会的・文化的貢献を果たすことへの期待が高まっています。研究がSNSで取り上げられた回数や、推薦された回数、ブックマーク、ニュース記事、ブログ、ツイートなど、指標になり得る多種多様なデータを総称して、オルメトリクス(代替指標)と呼びます。これらは、研究のインパクトを測る指標として、その意味や重要性が不均一です。オルメトリクスは現在、サイエントメトリクス研究でもっとも活発なテーマですが、それぞれの指標の特性、意味、力関係、そして広義の意味での研究のインパクトとの関連性を理解するためには、多くの課題が残されています。インパクトを示唆する指標に対しては、時間経過や分野、テーマによって標準化する作業も必要です。オルメトリクスはまだ生まれたばかりです。現時点では、オルメトリクスが従来の指標を追い越す見込みはありません。従来の指標を補完するような指標もありますが、まだまだ発展途上なのです。
最近のプレスリリースの中で、「出版データや引用データを慎重に分析することで、データ駆動型の科学に関する政策・助成の意思決定が可能になり、短所を解消して長所を引き出すための重要な戦略になり得る」と述べておられますが、このことについて詳しく説明して頂けますか?引用分析データは、政策や助成の決定にどのように利用されているのでしょうか。
ビブリオメトリクスを用いて論文を分析することの最大の強みの1つは、トップダウンのアプローチであるということです。膨大な情報をまとめることが可能なので、個人の知識や経験をもとにした査読由来のボトムアップ型視点では見ることができなかった研究の全容の中から、重要な特性を見きわめることができます。次に、きわめてゆがんだ引用分布という特徴から、全体の中のもっとも注目度が高い論文に、迅速かつ効率的に着目できるようになります。もちろん、ある分野で突出しているものであっても、分野間の平均引用数が異なるせいで、別の分野ではそうでない可能性があります。加えて、古い論文は新しい論文に比べて被引用数が蓄積されているので、時間軸の調整も必要になります。このように、指標は相対化または標準化しなければなりません。引用分析が示すことができるのは、ある分野における研究インパクトのポジティブなエビデンスであり、そのインパクトが、ほかの研究者、機関、国にどのように関連しているかということです。このエビデンスによって、どのような文脈で影響度やインパクトがあるのかということへの理解が深まります。すべての研究に予算を提供できるわけではないので、インパクトの高い研究を生み出している研究者に予算を提供するのは、妥当なアプローチと言えます。ただし、引用指標から見た研究のインパクトが高い研究者だけが支援を受けるべきであると言いたいわけではありません。「absence of evidence is not evidence of absence(エビデンスの欠如は、何かが欠如していることを示すものではない)」という有名な言葉があります。過去の業績に関する定量的評価とは別に、知識や直感にもとづいて政策や助成を決定する余地も残されるべきなのです。この考え方は、若手研究者を支援する上でとくに重要です。
これは、研究の生産性を高めるための包括的なデータ駆動形アプローチのほんの一部に過ぎません。研究のライフサイクルは、論文の出版や被引用だけに留まりません。出版の前には査読があります。また、研究者はその論文を書き上げるために多大な労力を費やしています。これらの活動に従事している研究者たちが所属する大学も、評価されるべきだと思います。機関で進行中のプログラムのための全体的な戦略の一部として、何らかの報奨があってもいいでしょう。このような理由から、クラリベイト・アナリティクスは最近、研究者が学術研究における査読や編集の価値について評価、シェア、議論ができるグローバルな主要プラットフォーム、Publons(パブロンズ)を買収しました。(http://news.clarivate.com/2017-06-01-Clarivate-Analytics-acquires-market-leader-Publons-creating-the-definitive-publisher-independent-platform-for-accelerating-research-through-peer-review)。研究活動の一側面を捉え、計量することで、機関のデータを拡張し、意思決定をサポートすることができるのです。
近年のサイエントメトリクスの進化の中で、もっとも革新的だったことは何ですか?
すでにいくつかについて触れていますが、フルテキストデータへのアクセスが可能になったことから、オルメトリクスや文脈・感情分析などができるようになりました。この情報を通して、助成データの分析も可能になりました。クラリベイト・アナリティクスは、2008年8月から助成団体のインデックスを始めているので、現在では約10年分のデータが集まっています。助成団体を、出版論文やその引用データにもとづくインパクトと関連付けるのは未知の領域ですが、助成者が意思決定をする上で、業績やインパクトの情報を少しでも多く知りたいと考えているのは間違いありません。イノベーションを加速させたがっている産業界、大学、政府、民間助成団体の思いは、学際的研究の盛り上がりに繋がっており、その特性や機能、可能性を探る研究は増え続けています。学際的分野を体系づけることは困難な作業ですが、従来の分野間の境界の存在意義が小さくなるほど、異なるアプローチができるようになるでしょう。異なる領域の知見が結びついたときに、重要な発見を前向きに研究するか、後ろ向きに研究するかは、個人的にはサイエントメトリクスの領域だと思っています。それにいくらか関連しているのが、コンピューターの高速化と大容量化、そして複数の学術組織が作成したソフトウェアの利用によって発展したサイエンスマップの分野です。これにより、今では誰もが自分で簡単にさまざまな類型を視覚化できるようになっています。
Science Watchの発刊に携わったご経験についてお話し頂けますか?秘話などがありましたらぜひ教えてください。
1989年にヘンリー・スモール氏から、当社のデータにもとづく研究業績やトレンドに関する短い記事を載せた月刊ニュースレターを作るよう求められました。そこで、既存の科学ジャーナリズムに自分たちの出版/引用指標を組み合わせてみることにし、主要メディアが見落としている研究に焦点を当てて、新興トレンドの発見に努めました。各号には、高い被引用数を得ている研究者へのインタビューや、医学、生物学、物理学、化学の分野における注目論文のトップ10リストを、専門家の解説とともに掲載しました。注目論文とは、出版後2年以内の、専門分野における被引用数が上位0.1%の論文のことです。Science Watchのバックナンバーを見れば、後にノーベル賞やその他の国際的栄誉を勝ち取った科学者たちのインタビューを読むことができます。これらの特集記事や注目論文リストは、その時々の科学的発見やトレンドを上手く映し出していたと自負しています。残念ながら編集上の方針転換により、元のScience Watchのウェブサイトは2015年に終了してしまいましたが、アーカイブコンテンツは現在も閲覧可能です。また、国内や地域の研究について調べたり、特定の研究テーマにフォーカスした白書やレポートなど、クラリベイト・アナリティクスのオンラインコンテンツ内の引用分析集は、今も注目されています。
学術出版界ではデジタル化が急速に進んでいます。あらゆる人が、さまざまなフォーマットやプラットフォームでデータを保存できるようになりました。このアクセシビリティの向上は、情報検索を複雑化していると思いますか?複雑にデジタル化された学術出版界において、ビブリオメトリクスが情報検索に寄与できることは何でしょうか。
印刷媒体のデジタル化の流れは歓迎すべきことです。この変化は情報の流通、利用、分析の面で革命をもたらしましたし、今後も発展を続けるでしょう。個人的には、モニターの字面を追うよりも本やジャーナルなどの印刷物を手に持って読む方が読みやすいのですが、印刷媒体が優れているのはこの点だけではないでしょうか。もちろん、デジタル化への移行によって生まれる可能性を活かすためには、適応が必要です。著者個人や研究機関を特定できるデジタルオブジェクト識別子(DOI)はきわめて重要なものであり、急速に普及しています。ResearcherIDやORCIDなどの著者の識別が可能な識別子は、著者名の曖昧さを回避することでサイエントメトリクス分析に大きく役立ちます。また、オープンアクセス出版の普及により、論文をフルテキストで読める機会が増えています。これにより、どのような文脈・感情で論文が引用されているのかという、文章単位での引用分析が可能になりました。引用の「質」を区別することの必要性は何十年も議論されてきましたが、技術的には実現可能な段階に来ています。ここでいう「質」とは、その引用の文脈がポジティブかネガティブか、あるいは単に中立的に使用されているのかということです。クラリベイト・アナリティクスは、この技術の発展を目指し、オープンアクセス論文のフルテキスト版を無料で素早く閲覧できるオープンAPIを提供する、ImpactStoryによるoaDOサービスの支援を発表しています(http://news.clarivate.com/2017-06-23-Clarivate-Analytics-announces-landmark-partnership-with-Impactstory-to-make-open-access-content-easier-for-researchers-to-use)。また「ビッグデータ」の分析についても触れておきましょう。この言葉は、人によって異なった(誤った)認識をされています。確かに、論文のフルテキストとそれに伴うデータセットからは、あらゆる種類の新たな繋がりが抽出されるでしょう。この発見はテキスト情報に限らず、引用データについても同様であり、すでに実現されているのです。
ワクワクするお話ですね。次は、少し個人的な質問になります。サイエントメトリクスのパイオニアであるユージーン・ガーフィールド氏とは、数年間にわたって近くで仕事に取り組んでおられました。このご経験についてお聞かせ頂けますか?
彼と30年以上も一緒に仕事ができたことを、大変光栄に思っています。彼は私の師であり、友人でした。Web of ScienceやCurrent Contentsなどのデータベース製品の開発・販売を行なった人物なので、彼をビジネスマンや起業家として捉える人が多いのですが、これらの製品の開発のために集めていたデータを分析し理解することを何よりも愛していた彼は、生粋の研究者だったと思います。引用インデックスの開発だけに留まらない学術界への貢献は、サイエントメトリクスの父であるデレク・デ・ソーラ・プライス(Derek de Solla Price)と肩を並べるものでしょう。天才と呼ぶにふさわしい人物でしたが、寛大で心の優しい人でもありました。亡くなってしまってとても寂しいです。
最近、クラリベイト・アナリティクスは、引用分析に関するイノベーションに贈られるユージーン・ガーフィールド賞の創設を発表しました。この賞について詳しくお聞かせください。
ユージーンが今年の2017年の2月下旬に亡くなってから、クラリベイト・アナリティクスは、彼に敬意を表するためにすぐにこの賞の創設を決めました。彼のライフワークであった引用分析に関する賞にしたのは、引用文献が、SCIの開発当初からの焦点であり、彼がこの分野で70年に渡ってさまざまな形で研究を続けてきたテーマだからです。この賞は、引用分析に関連する研究プロジェクトに贈られますが、ほかにも、科学構造の分析サイエンスマップ、トレンドの観測、あるいはユージーンの最初の関心領域であった情報公開における引用の役割などに関する研究も対象としています。最初の授与式は、2017年9月15~16日にフィラデルフィアで催されるユージーンを偲ぶ会の中で行われます。副賞として、2万5千ドルとWeb of Scienceのデータへのアクセス権が贈られます。また、応募できるのは博士号を取得して10年以内の若手研究者です。
ペンドルバリー氏、大変ためになるお話をありがとうございました!