母平均を検定する方法メモ。
母平均を検定する
得られた統計量がどれくらい正しいのかを確かめる方法のことを検定と言います。この記事では、検定の中でも特に母平均の検定について解説します。
母平均の検定でできるようになること
母平均の検定を使うと、「標本から得られた母平均がどれくらい正しいのか」を判断できるようになります。
ビッグデータがどうたら系は多変量解析とかそっちになります(^^)
母平均の検定。母分散が分かっており母集団が正規分布に従う場合
細かい理屈を抜きにすると、簡単な式で計算することができます。以下の例題で示します。
5年前の全国調査の結果、小学校4年生の身長Xは平均値が143.5cm、分散(7.8)^2でした。
この5年間で子供の成長に変化が生じたと思い、現在の小学校4年生100人を全国から無作為に抽出し平均身長を調べてみたところ、144.9cmでした。
このことから、小学校4年生の平均身長が変化したといえますか。有意水準5%で検定してください。ただし、身長の分布は正規分布とし、分散の値に変化はないと仮定します。
要約すると、「5年前と現在で計測された平均身長が異なっています。これは偶然ですか? それとも本当に平均身長が異なっているのですか?」という問題です。
「平均身長は変化していない」という仮説をおき、この仮説の真偽を検定しましょう。(この仮説のことを帰無仮説と呼びます)
母集団が正規分布に従うという仮定より、母集団から抽出した標本の標本平均は、平均μ、分散σ^2/nの正規分布に従います。(正規母集団の標本平均の定理より)
帰無仮説では、「平均は変化していない」という仮説をおいています。なので、現在の身長Xは平均143.5(5年前と同じ)で、計測された時だけたまたま144.9だった、と仮定していることになります。分散(7.8)^2、分布は正規分布に従う、という条件も付いています。
標本数は100に決めちゃいましょう(^^)
これらの条件から、標本平均は、平均143.5、分散(7.8)^2/100の正規分布(下記の図)になります。

ここで仮説の話に戻って問題を整理してみます。
標本平均は上記のグラフに従うと仮定しました。その上で、標本平均が偶然144.9になる確率を求めます。
偶然こうなる確率が5%より大きいなら、「平均身長は変化していない」ということになります。
逆に、偶然こうなる確率が5%以下なら、「平均身長は変化している」ということになります。
標本平均が偶然144.9になったのかどうかは、144.9が上記の正規分布の両側5%点よりも内側にあるのか、外側にあるのかで判断できます。
「内側にある=偶然こうなった=平均身長に変化はない」、「外側にある=偶然ではない=平均身長は変化している」ということになります。
上記のグラフにおける信頼度95%の母平均は、「標本平均 +- 1.96 * √(母分散 / 標本数)」で求まります。(参考)
信頼度95%の母平均 = 標本平均 +- 1.96 * √(母分散 / 標本数)
142.0 <= 信頼度95%の母平均 <= 145.0
144.9は、上記の区間の外側にあります。よって、「144.9は偶然こうなっただけで、平均身長は変化していない」ということが言えます。
検定の難しさを知るために、仮説を少し変えてみる
上記の問題では、「平均身長が変化したかどうか」を検定しました。その結果、「平均身長は変化していない」という結論になりました。
今度は、「平均身長が伸びたかどうか」を検定してみましょう。そのためには、「平均身長は伸びていない」という仮説をおいて、これが正しいのかどうか検定することになります。
途中までの手順は全く同じです。両側5%点の代わりに上側5%点を使う部分のみが異なります。この違いにより、信頼度95%の母平均は下記のようになります。
信頼度95%の母平均 < 144.8
(この値はエクセルだと NORMINV(0.95,143.5,0.78) で計算できます)
144.9は、上記の区間に含まれていません。つまり起きる確率が5%以下です。よって、平均身長は伸びている、ということが言えます。
検定は、仮説の取り方によって全く別の結果になることもある
上記の問題のように、検定は仮説の取り方によって結果が大きくことなったものになります。また、でてくる数値を少しでも間違えると、結果も全く異なったものになります。
実際に検定を行う際は、このようなミスに十分注意するようにしましょう。
母平均の検定。母分散が未知で母集団の分布も未知な場合
母分散が未知でも、母集団が正規分布に従うと仮定できるなら、t検定を用いて母平均の検定を行うことができます。
ある工場の生産ラインから製造されるペットボトルの平均内容量は500mlとされていますが、疑いを感じた管理者は、それを検定しようと9本を無作為に抽出し、次のような結果を得ました。
この標本を元に、「内容量は500ml」が正しいか否かを有意水準5%で検定してみてください。なお、内容量は正規分布に従うと仮定します。
1個目 | 2個目 | 3個目 | 4個目 | 5個目 | 6個目 | 7個目 | 8個目 | 9個目 | 平均 |
502.2 | 501.6 | 499.8 | 502.8 | 498.6 | 502.2 | 499.2 | 503.4 | 499.2 | 501.0 |
今回の検定で利用することになる、「t分布に関する定理」をおさらいしておきます。
平均値μの正規分布に従う独立したn個の確率変数x1, x2, ..., xnについて、平均値をx_avg、不偏分散をs^2とおくとき、次の値は自由度n-1のt分布に従う。
T = (x_avg - μ) / (s / √n)
この問題では、「平均値は500mlに従う」という仮説をおき、それが正しいのかどうか検定してみます。
問題文より、平均値μ = 500、n = 9なので、Tは自由度8のt分布に従うことになります。

検定すべき有意水準は5%、検定するのは「平均値が合っているかどうか」なので両側検定、自由度8のt分布の両側5%点は2.31、このことから、
T <= -2.31, 2.31 <= T
この範囲内にTがあると、「平均値は500mlではない」、この範囲外にTがあると、「平均値は500mlである」ということになります。
それではTを計算してみましょう。エクセルを使うと、不偏分散s^2 = 3.24になるので、
T = (x_avg - μ) / (s / √n)
= (501.0 - 500) / (1.80 / √9)
= 1.67
このTの値は、先に示した範囲外です。よって、「平均値は500mlである」と言えることになります。
仮説を少し変えて、片側検定にしてみる
「平均値が500mlかどうか」の場合は両側検定を行いました。今度は、「平均値が500mlより多い」ことを検定してみます。この場合は右片側検定になります。
自由度8のt分布の上側5%点は1.86です。このことから、
T >= 1.86
この範囲内にTがあると、「平均値は500mlよりも多い」、この範囲外にTがあると、「平均値は500mlよりも多くはない」ということになります。
Tの値は前回と変わらず1.67です。よって、上記の範囲外になるため、「平均値は500mlといえる(この誤差は許容される)」ということになります。
母平均の検定。母分散が未知で母集団の分布も未知だが標本数が多い場合
説明は省略しますが、「母分散が未知で母集団の分布も未知な場合」とほとんど同じ方法で計算できます。
唯一違うのは、母分散の代わりに不偏分散を使う点です。
標本数が多い(30より多い)と、母集団分布が何であれ標本平均は正規分布に従います。(中心極限定理より) また、母分散は不偏分散で近似できます。
詳しい理由は、参考書籍を読んでみて下さい(^^)
まとめ
母平均の検定を行いました。その際、母分散が既知かどうか、母集団が正規分布に従うかどうか、母分散と母集団分布が何であれ標本数が多いかどうか、のそれぞれについて母平均の検定方法を示しました。
参考書籍
この二冊を読んでこの記事を書きました。必要十分なことしか書いてないのでむっちゃおすすめです。