研究論文でもっともよく使われている統計値は、もっとも誤解され、誤用されているかもしれません。その統計値とは、p値のことです。アメリカ統計学会が、「統計的優位性とp値に関する声明」を発表し、p値の適切な利用と解釈に関する6つの原則を挙げています。
研究論文でもっともよく使われている統計値は、もっとも誤解され、誤用されているかもしれません。―その統計値とは、p値のことです。
アメリカ統計学会(American Statistical Association, ASA)は最近、「統計的優位性とp値に関する声明」を発表し、p値の適切な利用と解釈に関する6つの原則を挙げています。
ASAの言う6つの原則とはどのようなものか、そしてそれを研究にどう生かすべきなのかを、1つずつ確認して行きましょう。
1. p値は、特定の統計モデルに対してデータがどれぐらい整合しないかを示すことができるものである。
ここで重要なのは、「特定の」という言葉です。どのような研究や分析でも、研究者が統計モデルを作成するときは、特定の前提を想定するはずです。統計学者らによると、p値=0.05とは、その仮定が正しい確率が95%であるということではありません。そうではなく、この値は、もし帰無仮説が真であり、その他の前提もすべて有効であるならば、現在得られている結果と同程度の結果が得られる確率が5%であるということです。
2. p値は、「調べた仮説が真である確率」や「データが偶然の結果得られたものである確率」を示すものではない。
「p値が比較的小さい場合は帰無仮説が偽である」という誤った解釈が行なわれることがよくあります。実際のところ、p値が示しているのは、「帰無仮説が真であった場合に得られた結果と少なくとも同程度の結果が得られる確率」を示しているに過ぎません。
3. 科学的結論やビジネス/政策上の決定は、p値が一定の基準に達しているかどうかだけを根拠に下すべきではない。
「P < .05」は何かが真であることを保証しているわけではありません。つまるところ、p値は単なる統計値に過ぎず、天のお告げではないのです。P値は、研究の様々な側面、とくにサンプルサイズなどの影響を受けます。サンプルサイズがきわめて大きければ、影響がまったくのゼロでない限り、p値はほぼ常に有意でしょう(効果量はごくわずかかもしれませんが)。ですから、p値のみに基づいて実際的な決定を下すことはできない、というのが妥当な考え方です。
4. 正しい推論を行うためには、詳細な情報と透明性が必要である。
研究で報告されるのはp値が .05未満の結果のみ、ということがよくあります。ASAはこのような「間引き」行為を強く戒めており、検討されたすべての仮説、実施したすべての統計分析、そして、有意か否かにかかわらず、得られたすべてのp値を報告するよう勧告しています。そのようにして初めて、データから有効な結論を導き出すことができるのです。
5. p値/統計的有意性は、効果の量や結果の重要性を示すものではない。
P値が非常に小さい場合(<.001)の結果を、「有意性が高い」あるいは「きわめて有意である」と考える研究者もいます。しかし、p値が低いからといって、結果に実用性や臨床的重要性があるとはいえません。
仮に、エナジードリンクの消費量を増やすと、若い女性の身体イメージがポジティブなものになる、という統計的に有意な相関関係があることが分かったとしましょう。これは必ずしも、身体イメージを改善するために、女性たちに無料のエナジードリンクを配る介入方法を考えるべきだ、ということにはなりません。注目すべきなのは、関係性の強さ(例えば相関係数や回帰係数など)です。関係性が弱い場合は(例えば相関係数がたった0.1)、身体イメージと強い関係を持つほかの因子(例えば適度な自尊心や、肥満を話題にする頻度)について考慮すれば、介入の効果はより高まるでしょう。
結果の重要性を左右する実際の状況について考えることも重要です。大きなグループ間の小さな違いは統計的には有意かもしれませんが、実質的には重要でないこともあります。逆に、小さいグループ間の大きな違いは、統計的に有意でなくても実際には重要だということもあります。例えば、教育的介入を行なった後に、100点満点の数学のテストの平均点が1.5点上がったという場合、統計的には有意かもしれませんが、実生活において特別なメリットや有益性があるとは言えそうにありません。
6. p値そのものは、研究モデルや仮説に関する証拠を適切に測定するものではない。
p値のみの研究結果を報告することは、避けるべきです。P値が小さいからといって帰無仮説が偽であるとは限りませんし、p値が大きいからといって帰無仮説が真であるとも限りません。研究では、得られた結果と辻褄の合う様々な仮説があり得ます。したがって、p値は実験した研究モデルや理論を統計的に裏付ける唯一のものではなく、研究の価値をp値にのみ帰することはできないのです。
まとめ: p値は便利なものではありますが、研究の価値や重要性を決める物差しではないですし、またそのようなものとして扱うべきでもありません。統計的有意性は、科学的・実際的・臨床的な重要性と同義ではないのです。