経営統計_09_推定

経営統計 09 推定分寺杏介神戸大学経営学部  [email protected] ※本スライドは，クリエイティブ・コモンズ表示-非営利 4.0 国際ライセンス（CC BY-NC 4.0）に従って利用が可能です。

https://creativecommons.org/licenses/by-nc/4.0/

前回のおさらい ▌母集団分布が正規分布じゃなくても母集団分布が平均𝜇，分散𝜎 2 の場合標本分布は 𝑁 𝜎2 𝜇, 𝑛 母集団が正規分布じゃなくてもになる私達が実際に分かる範囲標本分布母集団分布標本平均 𝑥ҧ 𝜎2 𝑥,ҧ 𝑛 標本分布𝑁 を生み出す母集団分布は形はともかく母平均は 𝑥ҧ と考えるのが妥当だろう！標本平均 𝑥ҧ を生み落とした標本分布は𝑁 𝜎2 𝜇 = 𝑥,ҧ 𝑛 が最もしっくり来る 𝜎 2 がすでに分かっているとしたら母集団が正規分布じゃなくても 09 推定 2

3.

前回のおさらい ▌標本分散に関する推測母集団分布が平均𝜇，分散𝜎 2 の場合の標本分布は母集団が正規分布じゃなくても 𝑛−1 2 形はともかく期待値が 𝜎 になる 𝑛 標本分布母集団分布形は母集団分布による 𝑛−1 2 とにかく期待値が 𝜎 𝑛 私達が実際に分かる範囲標本分散 𝑠𝑥2 標本分散期待値が𝑠𝑥2 になる標本分布を生み出す母集団分布は 𝑛 形はともかく母分散は 𝑠𝑥2 と考えるのが妥当だろう！標本分散 𝑠𝑥2 を生み落とした標本分布の期待値は当然 𝑠𝑥2 が最もしっくり来る 𝑛−1 上の青い部分の逆数 09 推定 3

4.

いよいよ推定していきましょう ▌まずは点推定のお話です A 1 ID B 性別 C D 身長体重 E F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 全国の高校生100人にオンライン調査し 4 3 女 160 5 4 男 178 たら，平均勉強時間が2.5時間だった。 6 5 女 153 ふきだし今年の全国の高校生の勉強時間の 7 6 男 169 8 7 男 165 平均ってどんなもんだと思う？？ 47 0.8 31 54 4.0 34 69 3.8 51 42 1.9 87 80 1.9 39 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 そりゃ2.5時間なんじゃないですか…？直感的にもそんな予測になるうえに，このケースではその予測で全く正しいのですが… 「一つの値を出せ」と言われたら 2.5時間で良いでしょう。今回は • なぜその直感的な考え方で正しいと言えるのか • 母平均以外でもその考え方は通用するのかを見ていきましょう 09 推定 4

5.

点推定 point estimation ▌目的は母数を当てること推定値が母数に近いほどうれしい ▌勘と経験に頼るのは？母平均を推定してよ A 1 ID 過去の経験などから決めるざっと見た感じ大体○○じゃないっすか？客観的じゃないので説得力に欠ける B 性別 C D 身長 E 体重 F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 推定の方法に根拠が無いと正しいかもわからない ▌推定をもっと統計的に考えると… 標本から得た標本統計量に基づいて推定するのが自然 09 推定 5

6.

統計量をつかって推定する ▌直感的には母数に対応する標本統計量をまず思いつく母平均を推定してよならとりあえず標本平均でしょうな ▌でも実は何でも良いのでは？母平均を推定してよ究極的には母数はわからないのでどちらがより真値に近いか本来はわからない（というか標本によって変わる）ここヒストグラムの形的にも標本中央値とかどうすか？外れ値にも強いしどの標本統計量を使うと良いのか？ 09 推定 6

7.

推定量 estimator ▌母数を推定する時に使用する統計量のこと ෠ 一般的には母数を𝜃，推定量を𝜃と表します例｜母平均の推定量として標本平均を用いる場合得られたデータに基づいて推定した値（推定量の実現値）のことは推定値 (estimate) と呼びます 𝜃 = 𝜇, 𝜃෠ = 𝑥ҧ ▌「良い」推定量を選ぶ必要がある前ページの例で言えば，まず少なくとも no problem 母平均の推定量として標本平均を使っても「良い」ことを示した上で，何らかの基準によって better 母平均の推定量としては標本中央値より標本平均のほうがより「良い」と証明できれば良い標本平均こそが正義じゃあどんな基準で推定量の良さを測ったらいいの？ 09 推定 7

8.

「良い」推定量を選ぼう ▌統計学なので「何回も繰り返したら」と考えてみる期待値は母数に一致していてほしい標本統計量では標本分布が得られる ▼ 期待値や分散を計算することが出来る平均的に推定がズレてたら困る中心極限定理とか大数の法則とか不偏性 𝐸 𝜃෠ = 𝜃 母数周辺でなるべくバラつかないでほしいできればどんな標本でも母数近くに有効性（効率性） 𝑉 𝜃෠ が最も小さい ▌統計学なので「サンプルサイズが大きかったら」と考えてみるサンプルサイズが無限だったらさすがに母数に一致していてほしい一致性 lim 𝑃 𝜃෠ − 𝜃 > 𝜀 = 0 𝑛→∞ とても小さな値 09 推定または lim 𝐸 𝜃෠ = 𝜃 不偏性が満たされてたらOK ቐ𝑛→∞ lim 𝑉 𝜃෠ = 0 𝑛→∞ 8

9.

（補足）推定量の性質の優先順位 ▌点推定の目的をおさらいすると p. 5 点推定 ෠ 𝜃と𝜃の差が小さいほどうれしい目的は母数を当てること 𝐸 推定値が母数に近いほどうれしい勘と経験に頼るのは？ ▌誤差の期待値を分解すると母平均を推定してよ 𝐸 2 ෠ 𝜃 − 𝜃 が小さいほどうれしいトレードオフの関係にあることが知られている過去の経験などから決めるざっと見た感じ大体 2 2 𝜃መ − 𝜃 = 𝐸 𝜃መ − 𝜃 + 𝑉 𝜃መ = じゃないっすか？推定量のズレ＋推定量のばらつき推定の方法に根拠が無いと客観的じゃないので説得力に欠ける正しいかもわからない ▌とりあえず不偏性を満たす推定量のなかで考えることが多い推定をもっと統計的に考えるとサンプルサイズを増やせば 𝑉 𝜃෠ は小さくできるので標本から得たに基づいて推定するのが自然 ▌とはいえ不偏性がない推定量を用いる場合も多々ある多少の推定量のズレがあっても推定量のばらつきが小さければ結果的にOK 推定 09 推定 9

10.

母平均に対する標本平均は「良い」のか？母平均が 𝜇 のとき，中心極限定理によって標本平均の標本分布は𝑥ҧ ∼ 𝑁 ▌とりあえず不偏性が満たされていたらそのまま使える標本平均の標本分布の期待値は 𝐸 𝑥ҧ = 𝜇 有効性あり標本平均の標本分布の分散は 𝑉 𝑥ҧ （大数の法則から明らかに） lim 𝑉 𝑥ҧ 𝑛→∞ 不偏推定量の標本分布が達成できる分散の下限を示す理論例えば標本中央値の標本分布は 𝜎2 = lim =0 𝑛→∞ 𝑛 母集団分布が正規分布などの場合【クラメール・ラオの不等式】どんな推定量よりも小さいと知られている一致性あり ▌一致性はどうだろうか不偏性あり 𝜇Ƹ = 𝑥ҧ とおけば 𝐸 𝜇Ƹ = 𝜇 ▌有効性はどうだろうか 𝜎2 = 𝑛 有効性 𝜋 𝜎2 𝑁 𝜇, 2 𝑛 標本平均こそが最強不偏性母平均に対して，標本平均は最小分散不偏推定量である 09 推定 𝜎2 𝜇, 𝑛 10

11.

標準誤差 (standard error: SE) ▌推定値と真値の誤差の標準偏差これが標準誤差例母平均の推定値としての「標本平均」の標準誤差中心極限定理により標本分布は 𝑁 𝜎2 𝜇, 𝑛 𝜎2 𝜎 誤差の標準偏差は = 𝑛 𝑛 つまり不偏推定量の場合，「その統計量の標本分布の標準偏差」が標準誤差です 1 𝑛 が小さいと標本 2 𝑛 が大きいとサンプリングを繰り返す度に標本平均が変動しまくるサンプリングを繰り返しても標本平均はあまり変動しない標本平均を使って母平均を推測してもその結果は変動しまくる（＝誤差）標本平均を使って母平均を推測しても安定した結果が得られる標本誤差は小さい方がいいサンプルサイズが大きいほど推測の確信度が上がる 09 推定 11

12.

イントは「標準」しているという点じゃあ母分散に対して標本分散はどうなのか？標本を標準する場合，標本平均 2 のをえる場合，標準標本分布は無限さをって標準する = なくとも関数のしている時点で標本平均は理論的には標本における 2 の中心極限定理みたいなものはないですが標本平均がならば = + + 2 度はになる母集団分布の分散を 2 で表すとまとめると定される関数の母集団分布がン分布の分布のの期待値はなので関数 = がある 2 母集団分布が何であっても 2 2 の分散な確 = 2 2 変数の 2 2 2 2 2 または 𝑛− = 𝜎2 𝑛 のの確分布 ▼ 不偏性が無い 𝐸 𝑠𝑥2 2 の標本分散はイ分布はの確なのでが大きいほど分布は分布 2 平均値分散 2 = = 何のかあるいは度ラメータ標本分散の期待値はやはり標本分布分布標準正規分布に従う 2 のの分散 2 標本分布 2 よく使う（関心がある）標本統計量は平均値と分散くらい標本平均と標本分散の標本分布には関数のによらない 2 2 標本分散の標本分布は 2 標本最大値標本関係数まずは標本平均の標本分布を見てみましょう的に何分布になるかはによってるがイもちろん母集団分布が正規分布のときもがする標本統計量のでないといけない + するようなはに関して標準標本平均されたもの標本分散が変われば標本中央値も変わるためのときのの標本分布 2 , だけ正規分布分布ン分布実際には母標本統計量のに 2 2 資料08 標本分布 2 2 0 ズレを補正した「母分散の点推定値」を計算する必要があります標本分布 09 推定 12

13.

なぜちょっと小さくなるのか？（イメージで説明）母分散の期待値母平均からの偏差で考える標本分散の期待値標本平均からの偏差で考える 𝑛 𝑛 𝐸 𝑛 ෍ 𝑥𝑖 − 𝜇 2 = 𝜎 2 𝐸 𝑖=1 𝑛 ෍ 𝑥𝑖 − 𝑥ҧ 2 = ？ 𝑖=1 ▌サンプルサイズが２のときで考えてみると 𝑥1 − 𝑥ҧ 標本平均 𝑥ҧ は標本の値をもとに決まる 𝑛 ▼ 実は ෍ 𝑥𝑖 − 𝑎 2 を最小するのは𝑎 = 𝑥のとき ҧ 𝑛 𝑖=1 ▼ 𝑥1 − 𝜇 𝑥2 − 𝑥ҧ 標本分散は母分散よりもちょっと小さくなる 𝑥2 − 𝜇 𝜇 𝑥1 𝑥ҧ 資料02 pp. 24-26 𝑥2 𝑥 𝑥ҧ からの偏差のの平均 09 推定 𝜇 からの偏差のの平均 13

14.

具体的にどれくらい小さくなるのか？（イメージで説明）母分散の期待値標本分散の期待値 𝑛 𝑛 𝐸 𝑛 ෍ 𝑥𝑖 − 𝜇 2 = 𝜎 2 𝐸 𝑖=1 ▌サンプルサイズが２のときで考えてみると 𝑥1 − 𝜇 𝑥2 − 𝑥ҧ 𝑥2 − 𝜇 𝑥1 𝑖=1 サンプルサイズが小さいほど 𝜇 と 𝑥ҧ が離れやすくなるため母分散と標本分散の乖離が大きくなっていくのです 𝜎2 𝑥ҧ ∼ 𝑁 𝜇, 𝑛 𝑥1 − 𝑥ҧ 𝜇 𝑛 ෍ 𝑥𝑖 − 𝑥ҧ 2 = ？ 𝑥ҧ 𝑥2 𝑥 標本分散と母分散の差は 𝜇 と 𝑥ҧ の差で決まる分散なので ▼ 𝜎2 2 = 標本平均 𝑥ҧ と母平均 𝜇 のずれのの期待値は 𝐸 𝜇 − 𝑥ҧ 𝑛 ▼ 2 𝜎 𝑛− 2 𝜎2 母分散の期待値 𝜎 からを引いたら 𝑛 𝑛 09 推定 14

15.

標本分散の偏りを補正する母集団分布 𝑁 𝜇, 𝜎 2 から 𝑛 個のデータをサンプリングすると 𝑛−1 2 2 2 標本分散𝑠𝑥 の期待値は𝐸 𝑠𝑥 = 𝜎 になる 𝑛 𝑛 𝑛 2 し調整して 𝑠𝑥 の期待値ならばちょうど 𝐸 𝑠𝑥2 𝑛−1 𝑛−1 𝑛 = 00 人のサンプリングを繰り返したら真の母集団分布 𝑁 70,82 標本分散母分散の予測 = 𝜎 2 になる母分散とのズレ 65.2 65.2× 00 99 +1.86 62.9 62.9× 00 99 -0.46 63.8 63.8× 00 99 +0.44 ︙ ︙ ︙ ︙ ︙ ︙ 64.5 64.5× 00 99 +1.15 62.1 62.1× 00 99 -1.27 09 推定ズレの平均値 0 15

16.

不偏性を手に入れた ▌標本分散 𝑠𝑥2 に対する 𝑛 𝑠𝑥2 のことを不偏分散とよぶ 𝑛−1 母分散の点推定値として不偏分散を用いる作戦を何回も繰り返したら平均的には過小推定にならないので「良い」推定といえる体はシンプルなもの ▌式 𝑛 𝑛 の代りに 𝑛 − で割るだけ 𝑠𝑥2 = 𝑛 ෍ 𝑥𝑖 − 𝑥ҧ 2 𝑖=1 𝑛 𝑛 𝑠𝑥2 = ෍ 𝑥𝑖 − 𝑥ҧ 2 𝑛− 𝑛− 【ちなみに】統計解析のフトウェでは，分散を計算する関数がデフォルトで「𝑛 − で割る」挙動になっていることが多々あります。また，Excelやpythonには「𝑛 − で割って不偏分散を求める関数」と「𝑛で割って標本分散を求める関数」が両方用意されています。ほかのどの不偏推定量よりも分散が小さい 𝑖=1 母集団分布が正規分布などの場合ちなみに有効性不偏性母分散に対して，不偏分散は最小分散不偏推定量である 09 推定 16

17.

標本分散と不偏分散 ▌目的が違う標本分散｜手元のデータのばらつきが知りたいときにう（記述統計）不偏分散｜母分散を予測したいときにう（推測統計） ▌サンプルサイズが大きければ大した問題ではない 𝜎2 不偏分散と標本分散の差異はなので，𝑛 が大きければ2つはほぼ同じになる 𝑛 ちなみに 𝐸 𝑠𝑥2 = 標本分散は不偏推定量ではないですが 𝑛−1 2 𝜎 なので lim 𝐸 𝑠𝑥2 𝑛 𝑛→∞ = 𝜎 2 さらに lim 𝑉 𝑠𝑥2 = 0 になる 𝑛→∞ 一致推定量ではありますとはいえそもそものコンセプトが違うのでサンプルサイズが大きくても意識的に使い分けられるようになりましょう 09 推定 17

18.

最尤推定 maximum likelihood estimation: MLE ▌標本統計量からは「良い」推定量が得られないことがある標本統計量ベースでは不偏推定量が作れないことがある特に数の数が多い複雑な解析（多変量解析）を行う場合 ▌そんな場合でも，使える推定量を作るための方法が最尤推定 ▌尤度（ゆうど）とはもっと観測されたデータに対して，母数の値がどの程度「尤もらしい」か確関数確密度関数 𝑃 𝑋=𝑥𝜃 𝑓 𝑋 = 𝑥|𝜃 同じ関数の見方を変える母数が 𝜃 のときデータが 𝑥 になる確（密度） 𝐿 𝜃෠ = 𝑡|𝑥 𝑥 というデータが得られたとき母数が 𝜃መ = 𝑡 という推定の尤もらしさ 09 推定 18

19.

確（密度）関数と尤度関数の関係 ▌𝑛 = の確関数分布の場合 𝑃 𝑋 = 𝑥 𝑛 = , 𝑝 = 3𝐶𝑥 𝑝 𝑥 − 𝑝 3−𝑥 = 𝐿 𝑝Ƹ = 𝑡 𝑥 = 2 尤度関数 𝑃 𝑋=0 𝑃 𝑋= 𝑃 𝑋=2 𝑃 𝑋= 𝜃 = 0.0 1.000 0.000 0.000 0.000 𝜃 = 0. 0.729 0.243 0.027 0.001 𝜃 = 0.2 0.512 0.384 0.096 0.008 𝜃 = 0. 0.343 0.441 0.189 0.027 𝜃 = 0.4 0.216 0.432 0.288 0.064 𝜃 = 0.5 0.125 0.375 0.375 0.125 𝜃 = 0.6 0.064 0.288 0.432 0.216 𝜃 = 0.7 0.027 0.189 0.441 0.343 𝜃 = 0.8 0.008 0.096 0.384 0.512 𝜃 = 0.9 0.001 0.027 0.243 0.729 𝜃 = .0 0.000 0.000 0.000 1.000 09 推定確関数 𝑃 𝑋 = 𝑥 𝑝 = 0.2 尤度関数 𝐿 𝑝Ƹ = 𝑡 𝑥 = 2 19

20.

尤度関数を使って最尤推定問あたり確がわからないくじを３回引いたら２回当たりました。このとき，当たり確はいくつと推定するのが最も尤もらしいでしょうか。尤度関数 𝐿 𝑝Ƹ = 𝑡 𝑥 = 2 ちなみに 𝑛 ෑ 𝐿 𝑝Ƹ = 𝑡|𝑥 = 𝑥𝑖 データは普通複数ある 𝑖=1 無作為抽出ならばなので単純に尤度の積を取れば良い問くじをを３人が３回引いたらそれぞれ 1回，3回，2回当たりました。このとき，当たり確はいくつと推定するのが最も尤もらしいでしょうか。尤度関数が最も高くなる 𝑡 の値が点推定値 𝑝Ƹ に最もふさわしい 𝐿 𝑝Ƹ = 𝑡 𝑥 = × 𝐿 𝑝Ƹ = 𝑡 𝑥 = × 𝐿 𝑝Ƹ = 𝑡 𝑥 = 2 を最大する 𝑡 の値を求めたら良い 2 計算すると 𝑝Ƹ = 3 実際はコンピュータを使った数値計算で求めます 09 推定 20

21.

標本統計量に基づく推定量と最尤推定量の関係簡単な確分布であれば最尤推定量は解析的に求められる ▌正規母集団の場合 𝑛 𝑛 2 𝑥 − 𝜇 尤度関数は ෑ 𝐿 𝜇, 𝜎 2 |𝑥 = 𝑥𝑖 = ෑ exp − 2 2𝜎 2 2𝜋𝜎 𝑖=1 𝑖=1 これを最大にする 𝜇, 𝜎 2 を求めたら良い積だと最大値を求めるのが大変なので，実際には尤度の対数をとってから計算します。 𝑛 ෍ log 𝑖=1 頑張って解くと 𝑥−𝜇 2 exp − 2𝜎 2 2𝜋𝜎 2 最尤推定量は 𝑛 場合によっては標本統計量と同じ・似た形になることもある 𝜇 = 𝑥,ҧ 𝜎 2 = 𝑛 ෍ 𝑥𝑖 − 𝑥ҧ 2 𝑖=1 つまり分散の最尤推定量は不偏推定量ではありません結局それぞれ標本平均と標本分散になる 09 推定 21

22.

推定量の位置づけの整理 𝜃=𝜇 母を推定してよ ▌最尤推定量は推定量の選択肢の一つ標本平均 𝜃෠ = 𝑥ҧ 𝜃෠ 今回は推定量として標本中央値 𝜃෠ = Med 𝑥 尤度関数が最大になる値（最尤推定値） 𝜃෠ = arg max 𝐿 𝑡|𝑥 𝑡 ⋮ （その他の推定量） 09 推定正規母など一部の条件下ではたまたま一致するだけをいます！実際に，例えば母集団分布がラプラス分布の場合には最尤推定量は標本中央値と一致することが知られています 22

23.

最尤推定が広く用いられている理 ▌最尤推定量が以下の「良い」性質を持つことが保証されているため【イント】いずれも「サンプルサイズが大きくなると最終的にこうなる」という話です一致性：推定値が真値に確率的に収束する漸近正規性：推定量の標本分布が正規分布に近づくつまりサンプルサイズが十分に大きい場合には，最尤推定量を使っておけば大抵の場合にはなんとかなる，ということ区間推定や仮説検定を簡単に実行できるようになる漸近有効性：↑の2つをもつ推定量の中では標本分布の分散が最小である ▌最尤推定量を変換したものの最尤推定量が簡単に求められる（例）正規母の分散の最尤推定量が 𝜎ො 2 = 𝑠𝑥2 である p. 21 標準偏差の最尤推定量 𝜎ො 2 は，分散の最尤推定量のルート 𝑠𝑥2 で良い一般した言い方をすると，𝜃 の最尤推定量が 𝜃෠ であるとき， 𝑓 𝜃 の最尤推定量は 𝑓 𝜃෠ になるということです。 09 推定 23

24.

サンプルサイズの設計 ▌推定するなら誤差は小さい方が嬉しい ▌誤差がある値以下になる確標本平均ならば標本分布が 𝑁 は計算できる 𝜎2 𝜇, 𝑛 になるので期待値プラスマイナスいくつ以下の範囲に何％が含まれているか計算できる ▌最低限必要な推定の精度を担保するためにデータをめる前に，必要なサンプルサイズを推計しておくことができる母平均を推定したいんだけどそんな予算なん ○○人くらい集めると十分に信頼できる結果が出せますどサヨウデゴザイマスカ・・・・・・・ 09 推定 24

25.

サンプルサイズの設計 ▌ひとことで言ってしまえば，サンプルサイズで標準誤差を操作する問ある農作物の重さは例年標準偏差が10gになることが知られています。今年の農作物の重さの平均を推定することを考えたとき，真値からの誤差が90%の確で3g未満になるようにするには最低で何個の重さを測れば良いでしょうか。 1. 農作物の重さの母平均の点推定値は標本平均 2. 標本平均の標本分布は中心極限定理によれば𝑁 102 𝜇, 𝑛 3. 真値からの誤差が90%の確率で3g未満ということは右の図のような状態 09 推定 25

26.

サンプルサイズと標本分布の関係 ▌サンプルサイズが大きくなると標本分布の幅は狭くなる標準正規分布表によれば，およそ 𝜇 ± .64𝜎 の区間が 90% だとかる大小誤差が3g未満になる確が90%以下誤差が3g未満になる確が90%以上サンプルサイズここの閾値を計算したいのです 09 推定 26

27.

サンプルサイズの設計 ▌ひとことで言ってしまえば，サンプルサイズで標準誤差を操作する問ある農作物の重さは例年標準偏差が10gになることが知られています。今年の農作物の重さの平均を推定することを考えたとき，真値からの誤差が90%の確で3g未満になるようにするには最低で何個の重さを測れば良いでしょうか。 4. 標準正規分布表によればおよそ 𝜇 ± .64𝜎 の区間が90%なので 1.64 （標準誤差）が3より小さくなれば良い .64 × 4. これを解くと 𝑛 > 29.88 02 6.4 = < 𝑛 𝑛 【答】 30個以上 09 推定 27

28.

点推定の限界点推定値のばらつきは平均値ならば中心極限定理で説明可能 ▌サンプルサイズを考慮していない 𝜎2 𝑁 𝜇, 𝑛 高校生20人に聞いたところ平均勉強時間が2.5時間でした。したがって，全国の高校生の平均も 2.5時間だと推定されます。高校生2,000,000人に聞いたところ平均勉強時間が2.5時間でした。したがって，全国の高校生の平均も 2.5時間だと推定されます。 20人程度だとサンプルのばらつきが大きいので 2.5時間はさほど正確な予測ではないかも 200万人もデータが取れたらサンプルのばらつきもほぼゼロになるので 2.5時間はほぼ完璧な予測といえそうサンプルサイズを考慮して推定精度を何らかの形で表してあげよう 09 推定 28

29.

区間推定をしよう ▌結果の一般を目指して A 1 ID B 性別 C D 身長体重 E F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 全国の高校生100人にオンライン調査し 4 3 女 160 5 4 男 178 たら，平均勉強時間が2.5時間だった。 6 5 女 153 ふきだし今年の全国の高校生の勉強時間の 7 6 男 169 8 7 男 165 平均ってどんなもんだと思う？？ 47 0.8 31 54 4.0 34 69 3.8 51 42 1.9 87 80 1.9 39 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 そりゃ2.5時間なんじゃないですか…？今回まった100人ではたまたま2.5時間だったが別の100人に調査したら平均値は変わるはず多のズレを考慮した推測が求められるこの区間推定の解釈は厳密にはし正しくないです。後ほど正しい解釈はお伝えしますが，現時点ではかりやすさ重視でざと曲解します。ランダムなばらつきを考えると大体2.3～2.7時間くらいと予測するのが妥当ではないでしょうか。区間推定をします 09 推定 29

30.

区間推定の考え方は ▌台風の予報円と似ている遠い未来の予想ほど難しいので未来ほど予報円の直径が大きくなっているのです過去のデータをもとに台風の進路を予測する 11日15時の時点で台風の中心がこの円の中にある事前にはわからなれど確台風の進路ははじめから予報円は運命づけられているようなもの 70%の確率で台風の中心がが70% その円の中にある 09 推定 30

31.

区間推定の考え方は ▌台風の予報円と同じようにデータが少ないほど予想は難しいので予想の区間の幅が大きくなっていきます手元のデータをもとに母数を予測する母平均がこの区間の中にある事前にも事後にも真の値はわからなれど確母集団分布（母平均）はが95% 信頼区間ははじめから決まっていると考えるこれも厳密には正しい解釈ではないのですが，とりあえずはこんな感じで理解しておいてください 09 推定 95%の確率で母数がその区間の中にあるこの区間の作り方を学んでいきます 31

32.

区間推定イメージ① 標本分布ができるまで 2 出現しうる標本の 1 母集団の分布をターンが分かる 3 各標本で平均値を関数に置き換えたバージョンなどを計算するなにか仮定する標本の平均値母集団分布 170.4 169.3 population distribution 資料05 p. 23 4 標本の平均値の分布を作れる ︙ ︙ ︙ ︙ 171.4 172.3 標本分布 sampling distribution 無限の母集団から無限回サンプリングすると考える 09 推定 32

33.

区間推定イメージ② 信頼区間の位置づけ 2 出現しうる標本の 1 母集団の分布をターンが分かる 3 各標本で平均値などを計算する標本の平均値なにか仮定するそれぞれの 4 標本の平均値の 170.4 分布を作れる 169.3 母集団分布標本で population distribution ︙ ︙ ︙ ︙ とある区間 172.3 171.4 をつくります 09 推定標本分布 sampling distribution 33

34.

区間推定イメージ③ 95%区間をつくる以後，母分散は82 とわかっているとします例 100人サンプリングしたら標本平均が165.7だった平均値周りのこの標本分布の95%区間をつくる真の母平均はからない代りに推定値（標本平均）をって「もしも標本が母と一致していたら」とえてみる 165.7を中心に面積が0.95になる範囲母集団分布が 𝑁 65.7, 82 とした場合の上下2.5%ずつを切り取ったら95% 標本分布 𝑁 今回の場合は(164.1 – 167.3) 82 65.7, 00 最終的にこれが95%区間推定値なのですがなぜこれで区間推定ができるのでしょうか？ 09 推定 34

35.

区間推定イメージ④ 標本平均と95%区間の関係 𝜇 = 65 標本 163 標本がこの間 ??? 以後，真の母平均が165のケースを考えます 163 161.4 標本平均の値が変わると 95%区間はどう変するか 164.6 前スライドと同じ方法で計算 ??? 164 164 162.4 165.6 にあれば 95%区間は 165 真の母 165.7 𝜇 = 65 を含む 166 ??? 165 163.4 164.1 166.6 165.7 前スライドで計算したのはこの区間 167.3 166 164.4 167.6 ??? 167 165.4 09 推定 167 168.6 35

36.

区間推定イメージ⑤ 95%区間が母平均を含むのは？問 95%区間の上限が165になるのは標本平均がいくつのとき？ 95%区間の上限がちょうど165になる標本分布 82 𝑁 𝑋തmin , ത の値よりもつまり，このときの 𝑋 00 しでも標本平均が小さな値のとき 95％区間は165を含まなくなります 𝑋തmin 95％区間が真の母 09 推定を含まないという状態 36

37.

区間推定イメージ⑤ 95%区間が母平均を含むのは？問 95%区間の上限が165になるのは標本平均がいくつのとき？正規分布の対称性を利用して考えてみます真の母集団分布 𝑁 赤い分布 𝑁 青い分布｜𝑁 𝑋തmin 65,82 のもとでの標本分布 82 65, 100 82 赤い分布の下2.5%点, 100 一方の分布の端2.5%点は同時にもう一方の分布の値を表している青い分布の上2.5％点は赤い分布の平均値赤い分布の下2.5％点は青い分布の平均値 09 推定 37

38.

区間推定イメージ⑤ 95%区間が母平均を含むのは？問 95%区間の上限が165になるのは標本平均がいくつのとき？正規分布の対称性を利用して考えてみます青い分布の上端2.5%点がちょうど165なので標本がこれより大きければ 95%区間は母 𝑋തmin 青い分布のを含むは左の赤い点線赤い分布の下側2.5%点の値を求めてあげれば良い 09 推定 38

39.

区間推定イメージ⑤ 95%区間が母平均を含むのは？問 95%区間が165を含むのは標本平均がいくつのとき？同じように上限も考えてあげると標本が青い分布の値と緑の分布の値の間にあれば 95%区間は母を含むことになる言い換えれば赤い分布の下側2.5%点と上側2.5%点の値の間赤い点線の間に標本があれば良いそうなる確率は95%である ※緑の分布＝ 95%区間の下限がちょうど165になる標本分布赤い分布は真の母集団分布に基づく標本分布なので無数にあるうちの95％の標本平均は赤い点線の間の値になる，という意味 09 推定 39

40.

区間推定イメージ⑥ 標本がいっぱい取れたらグレーの分布＝真の母集団分布 𝑁 𝜇, 𝜎 2 における標本平均の標本分布黒い点は一つ一つの標本の標本平均を表す当然母平均 𝜇 の近くになることが多い 09 推定 40

41.

区間推定イメージ⑥ 標本がいっぱい取れたらグレーの分布＝真の母集団分布 𝑁 𝜇, 𝜎 2 における標本平均の標本分布母平均の値が何であろうと 1. 標本平均の値を母平均の代わりに使って標本分布をつくる 2. その標本分布において 95%区間を算出するを全ての標本で行うと，その区間は必ず95%の割合で母全標本中5%が作る区間は母平均を含まないを含むこの区間を confidence interval (CI) 95%信頼区間と呼びます 09 推定 41

42.

ということで区間推定イメージ区間をつくる人サンプリングしたら標本平均が真の母平均はからない代りに推定値（標本平均）を 95％信頼区間以後，母分散は82 とわかっているとします平均値周りのだったこの標本分布の区間をつくるってとえてみる面積が母集団分布がを中心にになる範囲正確な意味無限ある標本からその方法で区間を無限作るとそのうち95%の標本の区間は母平均を含む，そんな区間間違い 65.7, 82 とした場合の上下標本分布ずつを切り取ったら今回の場合は母平均は95%の確率でその区間の中にある母平均は「答えはからないけど一つに決まった値」なのである標本から作った信頼区間が母平均を含むかはすでに決定事実際に含んでいるかは一生分からないが「場合によって含んだり含まなかったりする」ということはない推定母平均は「答えはからないけど一つに決まった値」なので「母が動く」かのような解釈は出来ないことに注意！ 09 推定 42

43.

輪投げのようなイメージで ▌真の母数はすでに決まっている輪投げの的の位置は動かない ▌データが「真値が動く」という考え方は「輪投げの的が動く」と同じ状態ですないと信頼区間の幅は広くなる経験が少ないと，大きい輪でないと100回中95回入れることはできない ▌データが増えると信頼区間の幅は狭くなる経験を積むことで，より小さい輪でも100回中95回入れられるようになる前ページまでの赤い分布は「真の母分布に基づく標本分布」なので例えば平均値であれば中心極限定理によって 𝑁 𝜎2 𝜇, 𝑛 になります。したがって，サンプルサイズ 𝑛 が大きくなるほど標本分布の幅は狭くなり，結果的に下側2.5%点と上側2.5%点の値の幅も狭くなるため，信頼区間は狭くなります ※平均値だけでなく，分散や相関係数などの標本分布も同様にサンプルサイズ 𝑛 が大きくなるほど幅は狭くなるため，信頼区間も狭くなります。 09 推定 43

44.

信頼区間の計算例【問】100人サンプリングしたら標本平均が165.7でした。母分散は82 だと分かっているとします。このとき，母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 1 「標本平均が正しい」と仮定して標本分布を作る正規母における標本平均の標本分布は𝑁 𝜎2 𝜇, 𝑛 だとかるので，今回は𝑁 82 65.7, 100 となる。 2 得られた標本分布のもとで95%区間を作る信頼区間の上限を𝜇𝑈 ，下限を𝜇𝐿 とすると，求めたいのは𝑃 𝜇𝐿 ≤ 𝑋ത ≤ 𝜇𝑈 = 0.95となる𝜇𝐿 , 𝜇𝑈 の値正規分布は左対称なので，半分ずつえる上側｜ 𝑃 65.7 ≤ 𝑋ത ≤ 𝜇𝑈 = 0.475となる𝜇𝑈 の値を探せば良い下側｜ 𝑃 𝜇𝐿 ≤ 𝑋ത ≤ 65.7 = 0.475となる𝜇𝐿 の値を探せば良い正規分布なので標準化して求めます 09 推定 44

45.

信頼区間の計算例【問】100人サンプリングしたら標本平均が165.7でした。母分散は82 だと分かっているとします。このとき，母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 3 標準する標準化前標本平均 𝑋ത の標本分布が 𝑁 標準 82 65.7, 100 に従う 82 = 0.82 00 ത 𝑋−165.7 した値 = 𝑍ҧ が標準正規分布 𝑁 0, 0.8 に従ういま求めたいのは 𝑃 65.7 ≤ 𝑋ത ≤ 𝜇𝑈 = 0.475 になる 𝜇𝑈 の値左辺を標準すると𝑃 ത 165.7−165.7 𝑋−165.7 𝜇𝑈 −165.7 ≤ ≤ 0.8 0.8 0.8 𝑃 0 ≤ 𝑍ҧ ≤ 標準化後 = 0.475 𝜇𝑈 − 65.7 = 0.475 0.8 09 推定 45

46.

信頼区間の計算例【問】100人サンプリングしたら標本平均が165.7でした。母分散は82 だと分かっているとします。このとき，母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。標準化後 4 標準正規分布表から値を探す 𝑃 0 ≤ 𝑍ҧ ≤ 𝜇𝑈 −165.7 0.8 = 0.475 となるのは 𝜇𝑈 がいくつのときか？標準正規分布表をえば，𝑃 0 ≤ 𝑧 ≤ .96 = 0.475 だとかる 𝜇𝑈 −165.7 = 0.8 式 .96 形すると 𝜇𝑈 = 65.7 + .96 × 0.8 = 67.268 標本 ※正規分布は左標準誤差対称なので，下限も同様に𝜇𝐿 = 65.7 − .96 × 0.8 = 64. つまり母平均の95%信頼区間は常に（標本）± 1.96 ×（標準誤差）になります 09 推定 2と求められる【答】 164.132から167.268 46

47.

（補足）より一般的なやり方 pp. 36-46の計算方法は分布の対称性がある場合（標本平均の区間推定など）に限り使える方法です。【問】100人サンプリングしたら標本平均が165.7でした。母分散は82 だと分かっているとします。このとき，母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 1 とりあえず95%区間を作る求めたい区間の上限・下限をそれぞれ𝜇𝐿 , 𝜇𝑈 とする 𝑃 𝜇𝐿 ≤ 𝜇 ≤ 𝜇𝑈 = 0.95 になるような𝜇𝐿 , 𝜇𝑈 の値を求めたら良い 𝜇𝐿 , 𝜇𝑈 の値をどのように設定したら「𝜇𝐿 から𝜇𝑈 の間に母 𝜇 が含まれている確率（割合）が95%になる」のかを求めたい 2 既知の確分布に従う統計量になるように変形する 2 𝜎 中心極限定理により，標本平均の標本分布は𝑋ത ∼ 𝑁 𝜇, 𝑛 となる ത 𝑋−𝜇 標本平均を標準した𝑍ҧ = 𝜎 𝑛は，標準正規分布に従う 𝑃 𝜇𝐿 ≤ 𝜇 ≤ 𝜇𝑈 𝑋ത − 𝜇 𝑍ҧ = ∼ 𝑁 0, 𝜎 𝑛 ത 𝑋−𝜇 の真ん中がになるように変形させると 𝜎 𝑛 𝑃 09 推定一旦逆になりますが ത 𝑈 ത ത 𝐿 𝑋−𝜇 𝑋−𝜇 𝑋−𝜇 ≤ ≤ 𝜎 𝑛 𝜎 𝑛 𝜎 𝑛 47 にしない

48.

（補足）より一般的なやり方 pp. 36-46の計算方法は分布の対称性がある場合（標本平均の区間推定など）に限り使える方法です。【問】100人サンプリングしたら標本平均が165.7でした。母分散は82 だと分かっているとします。このとき，母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 3 もう一つ95%区間を作る ത 𝑋−𝜇 𝑍ҧ = 𝜎 𝑛 が標準正規分布に従う，ということは ത 𝑋−𝜇 ≤ 𝑛 標準正規分布表を用いると，𝑃 − .96 ≤ 𝜎 .96 = 0.95 と分かる 4 2つの式を対応させると… 𝑋ത − 𝜇 ≤ .96 = 0.95 3 より 𝑃 − .96 ≤ 𝜎 𝑛 𝑋ത − 𝜇𝑈 𝑋ത − 𝜇 𝑋ത − 𝜇𝐿 ≤ ≤ = 0.95 2 より 𝑃 𝜎 𝑛 𝜎 𝑛 𝜎 𝑛 𝜎 𝜎 𝑃 𝑋ത − .96 ≤ 𝜇 ≤ 𝑋ത + .96 = 0.95 𝑛 𝑛 すべての標本でこの区間を作った場合 95%の割合で真値𝜇が含まれる 𝑋ത = 65.7 𝜎=8 𝑛 = 00 𝑋ത − 𝜇𝐿 = .96 𝜎 𝑛 𝑋ത − 𝜇𝑈 = − .96 𝜎 𝑛 𝜇𝐿 = 𝑋ത − .96 𝜎 𝑛 𝜇𝑈 = 𝑋ത + .96 𝜎 𝑛 65.7 − .96 × 0.8 ≤ 𝜇 ≤ 65.7 + .96 × 0.8 既知の値を当てはめると 09 推定当然前ページと同じ結果【答】 164.132から167.268 48

49.

母分散が分かってるなんてことあるかね？ p. 34 区間推定イメージ区間をつくる人サンプリングしたら標本平均が以後，母分散は82 とわかっているとします平均値周りのだったこの標本分布の ▌母平均が分からなくて母分散だけ分かってる…？真の母平均はからない代りに推定値（標本平均）をって多くの場合，母分散もからない不偏分散によって点推定しているとえてみる「もしも不偏分散が母分散と一致していたら」と母集団分布がとした場合の 𝜎2 標本分布これを標準した値 𝑋ത − 𝜇 𝜎2 𝑛 𝑛 になるえてみるを中心に区間推定イメージ面積がになる範囲 ▌母分散（𝜎 2 ）が既知の場合のおさらい 65.7, 82 標本平均 𝑋ത の標本分布は 𝑁 𝜇, 区間をつくる区間をつくる人サンプリングしたら標本平均が上下真の母平均はからないずつを切り取ったら代りに推定値（標本平均）を以後，母分だったって今回の場合はの標本分布は 𝑁 0, とえてみる母集団分布が 65.7, 82 𝑛 推定 2 = 𝑠Ƹ 2 𝑠 𝜎 の代わりに不偏分散 𝑥 を使った場合の標本分布はどうなる？ 𝑛− 𝑥 2 09 推定とした場合の標本分布 49 p. 34

50.

ちょっと式変形してみる標本分散の標本分布 ▌不偏分散をつかって標準した標本平均はイントは「標準」しているという点 𝑋ത − 𝜇 𝑛 2 𝜎 2 のところに 𝑠 が入るので 𝑥 𝜎2 標本を標準 𝑛−1 する場合，標本平均 𝑛 2 のをえる場合，標準 2 の 𝑛 2 標本における 𝑠 𝑛−1 𝑥 ▌ について考えてみると 𝜎2 標本平均がならば = 𝑋ത − 𝜇 𝑛− 𝜎2 = 𝑠𝑥 = 𝑛 𝜎2 2 𝑧 𝑛 − 𝑛 𝑛−1 = 2 × = 標準正規分布に従う確を𝑛 って標準する 𝑛 𝑠=2 2 𝑠 𝑥 𝑛− 𝑥 𝑛− 𝑛 𝑛 𝜎 2 定されるしている時点で標本平均は 𝑁 0, 𝑧 2 のを表すとします + + 2 𝜎2 2 2 2 度はに従う確率になる数𝑧 𝑛−1 の 𝑠𝑥 は 𝜒 𝑛 − 𝑛 まとめると 𝑛 2 = 𝑋ത − 𝜇 𝑧 2𝑛−1 𝑛− , 𝜎2 𝑛 2 𝑛 − 𝑠𝑥 𝜎2 はに関して標準されたものが変わればも変わるために従う + でないといけない資料08 p. 31 であることを利用すると 2 𝜎 度𝑛− のイ分布に従う確変数 2 𝑛− 09 推定標本分布変数 2の 2 の分散の分散 2 2 2 50

51.

ここで新しい確分布 𝑡 分布 ▌標準正規分布と度𝑘のイ Γ 関数 𝑓 𝑋=𝑥 = ラメータ 𝑘 𝑘− 2 𝑘 𝑘𝜋Γ 𝑛 分布にそれぞれ従う確変数の比の確分布 + 𝑘+1 − 2 2 𝑥 𝑘 𝑡= 標準正規分布に従う確度𝑘のイ変数分布に従う確 𝑘 度 (degree of freedom) 𝑡 𝑘 または 𝑡𝑘 平均値 0 分散 𝑘 𝑘−2 基本的な形は標準正規分布と同じ左対称分子が 𝑧 であるため度が小さいほど 𝑁 0, よりも裾が重くなるイメージ的には 𝑧 のばらつきに𝑠𝑥2 のばらつきが加る感じ 09 推定 51 変数

52.

何を調整しないといけないのか？母分散が既知の場合 𝜎2 𝑋ത ∼ 𝑁 𝜇, 𝑛 母分散が未知の場合 𝑠Ƹ𝑥2 𝑋ത ∼ 𝑁 𝜇, 𝑛 （不偏分散でも標本分布が正規分布になる）と設定してしまうと 95%信頼区間は（標本平均）±1.96（標準誤差）になる SE （標本平均）±1.96（標準誤差）の区間を取れば pp. 36-41 95%の標本が作る区間は母数を含む 𝑠Ƹ𝑥2 < 𝜎 2 の場合 𝑠Ƹ𝑥2 = 𝜎 2 の場合 𝑠Ƹ𝑥2 > 𝜎 2 の場合 𝑠Ƹ𝑥2 が小さいと信頼区間も狭くなる 09 推定 95%よりも低くなってしまう！のでこのままではダメ 52

53.

𝑡 分布は何を意味しているのか ▌95信頼区間がきちんと「95%の割合の標本で母平均を含む」ようにするために 𝑡= 𝑋ത − 𝜇 𝑠Ƹ𝑥2 𝑛 = 𝑋ത − 𝜇 𝜎2 𝑛 × 𝑛 2 𝑠 𝑥 𝑛− 𝜎2 標準正規分布に従う確 = 度𝑘のイ変数分布に従う確 𝑘 変数不偏分散のばらつき（母分散比） 𝑠Ƹ𝑥2 = 𝜎 2 標本平均のばらつき（標準済） 𝑠Ƹ𝑥2 < 𝜎 2 𝑠Ƹ𝑥2 > 𝜎 2 調整不偏分散が母分散より大きい・小さいケースも考慮するための調整を行っている 09 推定 53

54.

母分散が未知の場合の標本平均の標本分布 ▌標本平均の標本分布を 𝑡 分布で表していく 𝑡= 標本平均の標本分布を導出する場合は 𝑋ത − 𝜇 𝑋ത − 𝜇 𝑧 = × = 2 𝑛 𝜎 2 𝑧 2𝑛−1 𝑧 2𝑛−1 𝑠 𝑥 𝑛− 𝑛 𝑛− 𝑛− 𝑛 標準正規分布に従う確変数度𝑘のイ分布に従う確 𝑘 【比較】母分散を使って標本平均を標準 𝑋ത − 𝜇 の標本分布は 𝜎2 𝑛 標準正規分布になる変数不偏分散を使って標本平均を標準した値 𝑋ത − 𝜇 𝑛 2 𝑠 𝑥 𝑛− 𝑛 = 𝑋ത − 𝜇 𝑠𝑥Ƹ 2 𝑛 した値の標本分布は度 𝑛 − の 𝑡 分布になる 09 推定 54

55.

𝑡 分布を用いた母平均の信頼区間の計算例【問】10人サンプリングしたら標本平均が165.7でした。また，標本分散は72でした。このとき，母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 1 不偏分散を計算する標準化前正規分布よりは裾の重い分布 10 サンプルサイズが10なので， 9 × 72 = 80 2 標本平均を標準する標本平均と不偏分散を用いて標本平均 𝑋ത を標準する ത 𝑋−165.7 標準した値 = 𝑡 が度 9 の 𝑡 分布に従う 80 10 いま求めたいのは 𝑃 65.7 ≤ 𝑋ത ≤ 𝜇𝑈 = 0.475 になる 𝜇𝑈 の値式を標準すると𝑃 ത 165.7−165.7 𝑋−165.7 𝜇 −165.7 ≤ ≤ 𝑈 8 8 8 09 推定 =𝑃 0≤𝑡≤ 𝜇𝑈 −165.7 8 = 0.475 55

56.

𝑡 分布を用いた母平均の信頼区間の計算例【問】10人サンプリングしたら標本平均が165.7でした。また，標本分散は72でした。このとき，母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。標準化後 3 𝑡 分布表から値を探す 𝑃 0≤𝑡≤ 𝑡 分布表を 𝜇𝑈 −165.7 8 𝑁 0, 𝑡 9 = 0.475 となるのは 𝜇𝑈 がいくつのときか？えば，𝑃 0 ≤ 𝑡 ≤ 2.262 = 0.475 だとかる 𝜇𝑈 −165.7 = 2.262 8 式形すると 8 ≃ 2.828 𝜇𝑈 = 65.7 + 2.262 × 2.828 = 72.097 標本 ※𝑡 分布は左標準誤差対称なので，下限も同様に𝜇𝐿 = 65.7 − 2.262 × 2.828 = 59. 0 と求められるつまり基本的には母分散が既知の場合と同じえ方で標準誤差を何倍するかだけが変わります 09 推定【答】 159.303から172.907 56

57.

（おまけ1）母分散の区間推定標本分散の標本分布には対称性が無いため pp.36-46のようなやり方は使えない pp. 47-48と同じやり方で【問】10人サンプリングしたら標本分散が40.40でした。このとき，母分散の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。する = 平均は 1 とりあえず95%区間を作る定される求めたい区間の上限・下限をそれぞれ𝜎𝐿2 , 𝜎𝑈2 とするはに関して標準されたものが変わればも変わるため 𝑃 𝜎𝐿2 ≤ 𝜎 2 ≤ 𝜎𝑈2 = 0.95 になるような𝜎𝐿2 , 𝜎𝑈2の値を求めたら良い 𝜎𝐿2 , 𝜎𝑈2 の値をどのように設定したら「𝜎𝐿2 から 𝜎𝑈2 の間に母分散 𝜎 2 が含まれている確率（割合）が95%になる」のかを求めたいでないといけない 2 既知の確分布に従う統計量になるように変形する資料08 p. 31 2のの分散の分散標本分散 𝑛 𝑥 の不偏分散 𝑠Ƹ𝑥2 は，標本分散を𝑛−1 2 2 2 2 𝜎2 2 2 𝑠Ƹ𝑥 は 𝑛−1 𝜒 𝑛 − 𝑛−1 2 2 𝑛− 𝑠 Ƹ は 𝜒 𝜎2 𝑥 09 推定したもの 𝑃 𝜎𝐿2 ≤ 𝜎 2 ≤ 𝜎𝑈2 に従う 𝑃 𝑛− 2 𝑛− 2 𝑛− 2 2 𝑠Ƹ𝑥 ≤ 𝜎 2 𝑠Ƹ𝑥 ≤ 2 𝑠Ƹ𝑥 𝜎𝑈 𝜎𝐿 に従う 57

58.

（おまけ1）母分散の区間推定標本分散の標本分布には対称性が無いため pp.36-46のようなやり方は使えない pp. 47-48と同じやり方で【問】10人サンプリングしたら標本分散が40.40でした。このとき，母分散の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 3 2.70 2 𝜒 𝑛− 𝑛−1 に従う 𝜎2 𝑠Ƹ𝑥2 が95%の確率で含まれる区間は 𝑃 2.70 ≤ 𝑛− 2 𝑠Ƹ ≤ 9.02 = 0.95 𝜎2 𝑥 𝜒 2 分布表というものを用いて求めます 19.02 𝜒2 9 確密度もう一つ95%区間を作る 4 2つの式を対応させると… 3 より 𝑛− 2 𝑃 2.70 ≤ 𝑠Ƹ ≤ 9.02 = 0.95 𝜎2 𝑥 𝑛− 2 𝑛− 2 𝑛− 2 より 𝑃 𝑠Ƹ ≤ 𝑠Ƹ ≤ 𝑠Ƹ = 0.95 2 𝜎2 𝑥 𝜎𝑈2 𝑥 𝜎𝐿2 𝑥 𝑛− 2 𝑛− 2 𝑃 𝑠Ƹ𝑥 ≤ 𝜎 2 ≤ 𝑠Ƹ = 0.95 9.02 2.70 𝑥 𝑛 = 0のすべての標本でこの区間を作った場合 95%の割合で真値𝜎 2 が含まれる 𝑠Ƹ𝑥2 = 6.72 𝑛= 0 𝑠Ƹ𝑥2 = 𝑛− 2 𝑠Ƹ = 9.02 𝜎𝐿2 𝑥 𝑛− 2 𝑠Ƹ = 2.70 𝜎𝑈2 𝑥 既知の値を当てはめると 0 × 40.40 ≃ 44.89 = 6.72 9 09 推定 𝜎𝐿2 = 𝑛− 𝑠Ƹ𝑥2 9.02 𝜎𝑈2 = 𝑛− 2 𝑠Ƹ 2.70 𝑥 9 9 2 2 × 6.7 ≤ 𝜎 ≤ × 6.72 9.02 2.70 【答】およそ21.24から149.63 58

59.

（おまけ1の補足）標本分散の標本分布を𝜒 2 分布にする必要性 𝜒 2 分布に基づく信頼区間の計算 19.02 = 0.95 𝑃 𝑛−1 2𝜎 の 𝐺𝑎𝑚𝑚𝑎 , の 2 2 𝑛−1 2 𝑛−1 ≤ 𝑠Ƹ𝑥 ≤ 下側2.5%の値上側2.5%の値 𝐺𝑎𝑚𝑚𝑎 計算は楽ではないが 𝜎 2 によらず同じ ▼ ある程度ラクできる！ 𝑛−1 2𝜎 2 2 , 0.3𝜎 2 2.114𝜎 2 = 0.95 この計算が超めんどくさい！（例）𝑛 = 0 密度確密度 2.70 の続きン分布に基づく信頼区間の計算（例）𝑛 = 0 𝜒2 9 9 2𝜎 2 𝐺𝑎𝑚𝑚𝑎 , 2 9 確 𝑃 𝑛− 2 𝜒2 𝑛 − の 𝜒2 𝑛 − の ≤ 𝑠Ƹ ≤ 下側2.5%の値上側2.5%の値 𝜎2 𝑥 資料08 p. 25 𝑃 𝑛− 𝑛− 2 2 2 𝑃 𝑠Ƹ ≤ 𝜎 ≤ 𝑠Ƹ = 0.95 9.02 𝑥 2.70 𝑥 09 推定 2. 4 𝑠Ƹ𝑥2 ≤ 𝜎 2 ≤ 0. 𝑠Ƹ𝑥2 = 0.95 上下2.5%点さえ分かれば同じ計算はできるけれど…… 59

60.

（おまけ2）母比の区間推定【問】500人のランダムサンプリングによる世論調査の結果，内閣支持は17.2%でした。このとき，母比（母集団全体での内閣支持）の95%信頼区間を求めてください。 1 とりあえず95%区間を作る求めたい区間の上限・下限をそれぞれ𝑝𝐿 , 𝑝𝑈 とする 𝑃 𝑝𝐿 ≤ 𝑝 ≤ 𝑝𝑈 = 0.95 になるような𝑝𝐿 , 𝑝𝑈 の値を求めたら良い 𝑝𝐿 , 𝑝𝑈 の値をどのように設定したら「 𝑝𝐿 から 𝑝𝑈 の間に真の内閣支持率 𝑝 が含まれている確率（割合）が95%になる」のかを求めたい 2 既知の確分布に従う統計量になるように変形する正規近似と中心極限定理により，「支持する」と回答する人数の標本分布はX ∼ 𝑁 𝑛𝑝, 𝑛𝑝 これを標準した𝑍 = 𝑋−𝑛𝑝 𝑛𝑝 1−𝑝 は，標準正規分布に従う 𝑍ҧ = 𝑋 − 𝑛𝑝 𝑛𝑝 −𝑝 𝑋−𝑛𝑝 𝑃 𝑝𝐿 ≤ 𝑝 ≤ 𝑝𝑈 の真ん中が 𝑛𝑝 になるように変形させると 𝑃 1−𝑝 09 推定 −𝑝 で近似できる ∼ 𝑁 0, 一旦逆になりますが 𝑋−𝑛𝑝𝑈 𝑛𝑝 1−𝑝 ≤ 𝑋−𝑛𝑝 𝑛𝑝 1−𝑝 ≤ にしない 𝑋−𝑛𝑝𝐿 𝑛𝑝 1−𝑝 60

61.

（おまけ2）母比の区間推定【問】500人のランダムサンプリングによる世論調査の結果，内閣支持は17.2%でした。このとき，母比（母集団全体での内閣支持）の95%信頼区間を求めてください。 3 もう一つ95%区間を作る 𝑍ҧ = 𝑋−𝑛𝑝 𝑛𝑝 1−𝑝 が標準正規分布に従う，ということは標準正規分布表を用いると，𝑃 − .96 ≤ 𝑋−𝑛𝑝 𝑛𝑝 1−𝑝 ≤ .96 = 0.95 と分かる 4 2つの式を対応させると… 3 2 よりより 𝑃 𝑃 − .96 ≤ 𝑋 − 𝑛𝑝𝑈 𝑛𝑝 −𝑝 ≤ 𝑋 − 𝑛𝑝 𝑛𝑝 −𝑝 𝑋 − 𝑛𝑝 𝑛𝑝 −𝑝 𝑋 − 𝑛𝑝𝐿 ≤ .96 = 0.95 ≤ 𝑋 − 𝑛𝑝𝐿 𝑛𝑝 −𝑝 𝑛𝑝 − 𝑝 𝑋 − 𝑛𝑝𝑈 = 0.95 𝑛𝑝 終わりよ… 09 推定 −𝑝 = .96 𝑝𝐿 = 𝑋 − .96 𝑛𝑝 𝑛 −𝑝 = − .96 𝑝𝑈 = 𝑋 + .96 𝑛𝑝 𝑛 −𝑝 このままだと真値𝑝がわからないと信頼区間が作れない… 61

62.

（おまけ2）母比の区間推定【問】500人のランダムサンプリングによる世論調査の結果，内閣支持は17.2%でした。このとき，母比（母集団全体での内閣支持）の95%信頼区間を求めてください。 5 推定値で代用する 𝑋 標本比率（内閣支持率） 𝑝Ƹ = 𝑛 は支持する＝1 支持しない＝0 としたときの標本平均 𝑛 が十分に大きければ 𝑝 のかわりに𝑝Ƹ を用いて区間を作ったとしても同じ95%の割合で真値 𝑝 を含む区間になるということです。大数の法則によって，サンプルサイズが大きければ 𝑝Ƹ は母数 𝑝 に一致する！ 𝑋 − .96 𝑛𝑝 𝑝𝐿 = 𝑛 −𝑝 𝑋 + .96 𝑛𝑝 𝑝𝑈 = 𝑛 −𝑝 𝑝Ƹ = 0. 72 𝑛 = 500 𝑝Ƹ で置き換え既知の値を当てはめると 𝑝𝐿 = 𝑝Ƹ − .96 𝑝𝑈 = 𝑝Ƹ + .96 𝑛𝑝Ƹ − 𝑝Ƹ 𝑃 𝑝ො − .96 𝑛 𝑛𝑝Ƹ − 𝑝Ƹ 𝑛𝑝ො − 𝑝ො 𝑛 ≤ 𝑝 ≤ 𝑝ො + .96 𝑛𝑝ො すべての標本でこの区間を作った場合 95%の割合で真値 𝑝 が含まれる − 𝑝ො 𝑛 𝑛 7 .208 7 .208 0. 72 − .96 ≤ 𝑝 ≤ 0. 72 + .96 500 500 【答】およそ0.139から0.205 結局標本平均の区間推定に帰着しているため，信頼区間は（標本）± 1.96 ×（標準誤差）の形になっています 09 推定 62 = 0.95

Kyosuke Bunji

関連スライド

ベイズ統計_07_マルコフ連鎖モンテカルロ法(2)

ベイズ統計_02_確率の基本とベイズの定理

ベイズ統計_01_イントロダクション

ベイズ統計_03_尤度

ベイズ統計_04_事前分布・基本的なベイズ推論(1)

ベイズ統計_06_マルコフ連鎖モンテカルロ法(1)

各ページのテキスト