標本から母平均を区間推定する

標本から母平均を区間推定する方法メモ。



標本から母平均を区間推定する


全数調査が難しい時に、標本値から母集団の平均、分散を推定することができます。この記事では、その中でも特に母平均の推定方法について解説します。


母集団の平均、分散の推定は、標本自体ではなく、標本平均の分布から推定することになります。



母平均の区間推定でできるようになること


母平均の区間推定を使うと、「大きな母集団の平均を小さな標本から推定すること」ができるようになります。例えば、「日本人の平均身長の推定」とか。


ビッグデータがどうたら系は多変量解析とかそっちになります(^^)



母集団の平均、分散と、標本平均の平均、分散の関係


母集団の平均と分散、標本平均の平均と分散には、それぞれ以下のような対応関係があります。


母平均と標本平均の平均

標本数を十分大きくしていくと、母平均と標本平均は一致します。


母分散と標本平均の分散

標本数を十分大きくしていくと、標本分散は母分散の1/nになります。



上記のような母集団分布と標本平均分布の関係から、幅を設ければ、母集団の平均と分散を推定することができます。


その方法を次から説明します。



母平均の区間推定。母分散が分かっており母集団が正規分布に従う場合


細かい理屈を抜きにすると、簡単な式で計算することができます。以下の例題で示します。


中身の見えない箱がたくさんあります。それぞれお金が入っています。標本として9個取り出したところ、以下の金額が入っていました。この結果から、全ての箱の平均金額を信頼度95%で推定してください。

ただし、箱の中の金額は分散900(つまり標準偏差は30)の正規分布に従うとします。


1つ目 2つ目 3つ目 4つ目 5つ目 6つ目 7つ目 8つ目 9つ目 平均
530 515 470 545 440 530 455 560 455 500

表の通り、この場合の標本平均は500です。


標本平均と母分散から、信頼度95%の母平均は以下の式で計算できます。


母平均 = 標本平均 +- 1.96 * √(母分散 / 標本数)

= 500 +- 1.96 * √100

= 480.4 <= 母平均 <= 519.6


よって、全ての箱の平均金額は、約480円以上、約520円以下となります。


途中でてきた1.96は、標準正規分布の両側5%点です。信頼度99%の時は2.58、信頼度90%の時は1.65になります。



ちょこっとした解説

この問題では、箱の中の金額に対して、母分散が分かっている正規分布を仮定し、さらに、標本数が少ない(30より小さい)ことに注意してください。


この後は、「母分散が分かっていない、正規分布、標本数が少ない」場合、さらに、「母分散が分かっていない、母集団分布も分かっていない、しかし標本数は多い」場合、を見ていきます。



母平均の区間推定。母分散が分かっていないが母集団が正規分布に従う場合


前回と同じ問題を例に挙げます。今回と前回の違いは、母分散が分かっていない点です。


1つ目 2つ目 3つ目 4つ目 5つ目 6つ目 7つ目 8つ目 9つ目 平均
530 515 470 545 440 530 455 560 455 500

今回は母分散が分かっていないので、その代わりに不偏分散を使います。不偏分散とは、標本から得られる母分散の推定値です。


不偏分散は、標本分散を計算する時の分母をnではなくn-1にすることで計算できます。


標本分散 = {(x1 - X1)^2 + (x1 - X2)^2 + ... + (xn - Xn)^2} / n

普遍分散 = {(x1 - X1)^2 + (x1 - X2)^2 + ... + (xn - Xn)^2} / (n - 1)


この問題での不偏分散 = {(530 - 500)^2 + (515 - 500)^2 + ... + (455 - 500)^2} / (9 - 1)

= 2025


このn-1のことを自由度と言います。そういうものだと思って下さい。


母分散の代わりに不偏分散を使うことで、母平均を推定します。


母平均 = 標本平均 +- 2.31 * √(不偏分散 / 標本数)

= 500 +- 2.31 * √(2025 / 9)

= 500 +- 2.31 * 15

= 465.4 <= 母平均 <= 534.7


よって、全ての箱の平均金額は、約465円以上、約535円以下となります。前回と違って母分散が分かっていないため、幅が広がってしまいました。


途中でてきた2.31は、t分布の両側5%点です。t分布の%点は自由度と信頼度が分かれば求まります。自由度が8の時、信頼度99%の時は3.36、信頼度90%の時は1.86になります。



ちょこっとした解説

この問題では、箱の中の金額に対して、母分散が分かっていない正規分布を仮定し、さらに、標本数が少ない(30より小さい)ことに注意してください。


今までは、標本数が少ない(30より小さい)、かつ、母集団が正規分布に従う、という前提条件の元で、母分散が分かっている場合、母分散が分かっていない場合の母平均の区間推定を行いました。


通常、母集団の情報は何も分かっていない場合が多いものです。次は、母集団の分散、母集団の分布も分かっていないが、標本数が多い(30よりも多い)場合の母平均の区間推定方法を見ていきます。



母平均の区間推定。母分散が分かっていないし母集団の分布も分からないが標本数が多い場合


母集団について何も分かっていない場合でも、標本数が多い(30よりも多い)なら、母平均の区間推定を行うことができます。


前回と同じような問題を例に挙げます。今回は母分散が分かっていないです。その代わり、標本数は100です。


中身の見えない箱がたくさんあります。それぞれお金が入っています。標本として100個取り出したところ、平均は500、普遍分散は2500となりました。この結果から、全ての箱の平均金額を信頼度95%で推定してください。

ただし、母集団については、分散も分布も何も分かっていません。


結論から言うと、母分散が既知で母集団が正規分布に従う場合の公式がほぼそのまま使えます。(母分散が不偏分散になっています)


母平均 = 標本平均 +- 1.96 * √(不偏分散 / 標本数)

= 500 +- 1.96 * √(2500 / 100)

= 490.2 <= 母平均 <= 509.8


よって、全ての箱の平均金額は、約490円以上、約510円以下となります。母分散も母集団の分布も分かっていないですが、幅はとても狭くなりました。(つまり、より正確になりました)


途中でてきた1.96は、一つ目の問題と同じ意味で、標準正規分布の両側5%点です。信頼度99%の時は2.58、信頼度90%の時は1.65になります。



ちょこっとした解説

この問題では、箱の中の金額に対して、母分散も分布も分かっていないですが、標本数が多いので、結果的に区間推定ができました。


標本数が多いことで区間推定ができるのは、中心極限定理のおかげです。標本数が多い = 30より多い、という決め付けも、中心極限定理から分かります。



標本を無作為に抽出することの難しさ


今回の方法は、全体に渡って一つの大きな問題があります。今回は全ての問題で、「標本を無作為に抽出できる」という暗黙の前提がありました。しかし実際の問題では、これはとても難しい問題です。



例えば、あるSNSから一定数のユーザーを無作為に抽出し、その結果から日本のインターネットユーザーのデモグラ(年齢とか性別とか)を推定するとします。


結論から言うと、これはうまくいきません。SNSのユーザーというだけで既にデモグラが大きく偏っており、そこからユーザーを無作為に抽出したところで、それは母集団を均一に抽出したとは言えないためです。


年齢性別等をうまく均一に抽出したとしても、今度は、ユーザーが正確にデモグラを入力しているのか?という問題が浮かんできます。つまり問題は山積みなわけです…(^^)


今回の公式を現実の問題に適用する際は、上記のような問題点に気を付けるようにしましょう。



まとめ


母集団について何かしら分かっている場合、何も分かっていない場合について、母平均の区間推定を行いました。


最終的な結論だけ言うと、母集団について何も分かっていなくても、標本数が多ければ区間推定を行うことができます。


実践的には、母集団について何も分かっていないことが多いので、最後の問題の解き方さえ覚えておけばOKだと思います。


現実の問題に適用する際は、無作為な抽出の難しさ等様々な問題点にも気を付けるようにしましょう。



参考書籍


この二冊を読んでこの記事を書きました。必要十分なことしか書いてないのでむっちゃおすすめです。



著者プロフィール
Webサイトをいくつか作っています。
著者プロフィール