■ - あけてくれ -- おれカネゴンの『算数できんのやっぱり気にしすぎとや』日記

さっき届いた「読書猿」メールマガジンにカネゴンが知りたかったことがずばり書いてあったので思わず全文引用【強調箇所はおれカネゴン】。

■■Kline, R. B. "Beyond significance testing: reforming data analysis methods in behavioral research". (American Psychological Association ＝■
統計ができないと、少なくとも生き物相手の研究（生物学、医学、心理学あたりまで、やや怪しいが社会学なども入る場合もある）は「科学的」とは認められない。ここでいう「統計」とは、統計学的検定を下限とする。つまり、すくなくとも検定をやってないと、科学的研究とは認められない、ということである。
検定とは、おおざっぱにいえば、次のようなものである。
０．主張したいことがある。たとえば「この薬は効果がある」といったような。
１．主張したいことを、実験で甲乙つけられるような形で表す。「薬を飲んだグループと飲んでないグループを比較すると（他の条件は同じ）症状の改善に差がある」
２．１とは反対の仮説を作る。「薬を飲んだグループと飲んでないグループとでは、症状の改善に差がない」
３．実験データから、２．の仮説が成り立つ確率を計算する。
４．３．の確率がかなり小さければ（たとえば５％より小さいとか、１％とより小さい）、２．の仮説を捨てる。だから１．の主張が言える（そう主張しても、間違う可能性はかなり小さい）
しかし、１％はともかく５％がなぜ「小さい確率」といえるのか？

これには、統計的検定が農学の分野で発展したことに関係があるというフォークロア（民間伝承）がある。つまり研究者が現役の期間はだいたい２０年間くらいである。農学はその対象の性質上、１年間に１回しか実験ができない（笑、これはすごくあやしいぞ）。つまり２０年間で２０回しか実験できないので、間違える確率を１／２０にできるのなら、彼は間違えることなく研究者生活を全うできる、という訳である。
しかし本当は、５％水準の検定を２０回やったとすると、これらがそれぞれを独立しているとすれば、２０回（２０年間）で「少なくとも１回以上の間違った主張をしてしまう確率」は，実は６５％近くにもなる。つまり１度も間違えない確率は９５％（＝０．９５）の２０乗なので、それを１から引けば、少なくとも１度は「実際は全く差がないのい、差があると」間違えて判断する確率は、６５％近くにもなるのである。
仮説検定の使用は広く広がっている。しかし一方では、１９６０年代あたりから、その使用に注意と反省が繰り返し行われている。統計学的仮説検定を使わない方向に、おそらく最も進んでいる分野のひとつは心理学だろう。たとえばアメリカ心理学会はタクスフォースをつくってhttp://www.apa.org/science/bsaweb-tfsi.html、
仮説検定の問題点の指摘と代替手段（検定力分析Power analysisと効果量effect sizeの信頼区間の報告）の普及とに力を注いで来た。学会誌に仮説検定の結果を載せることを禁止しようというところまで話は進んだ（しかし、これは検閲にあたるのではと、いろいろ抵抗もあって実現には至らなかったらしい）。おかげで、注がれた力に見合うほどには、検定を用いた研究は減っておらず、「検定力分析と効果量の信頼区間」を使用した研究は増えていない。人の行動はよりマシな選択肢がある場合でもなかなか変わらない。人は手の延長である慣れた道具をなかなか手放さないものだ。
しかし、少なくとも、《2値的な判断しかできない (有意か否か) 検定よりも、効果量 + 区間推定を利用する方が望ましい》という考え方は、American Psychological Association (APA) の投稿要綱（Publication Manual of the American Psychological Association） http://www.amazon.co.jp/dp/1557987912/ には無論のこと、他にも多くの心理学系学会誌のEditorial Policyに採用されている。（http://www.coe.tamu.edu/%7Ebthompson/ の24 Journals now requiring effect size reporting:というところに、学会誌のリストが、http://www.coe.tamu.edu/%7Ebthompson/journals.htmには、それぞれの学会誌のEditorial Policyの抜き書きがある）。
（参考）
・Johnson, Douglas H. 1999. The Insignificance of Statistical Significance Testing（統計的有意性の無意味さ）. Journal of Wildlife Management 63(3):763-772. Jamestown, ND: Northern Prairie Wildlife Research Center Home Page.
http://www.npwrc.usgs.gov/resource/1999/statsig/statsig.htm (Version 16 SEP99).

Yahoo!ニュースあたりで流れる「○○が××に効くことがわかった」などの記事のうちどのぐらいが旧来の検定で判断されているのだろう。