第4回分布と推定(pdf)

217 Views

November 08, 23

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

正規分布と 平均値の推定 第4回 社会科学情報処理 本資料は立教大学「社会科学情報処理(古賀)」の授業での使用を目的としたものです。 当該授業での学習目的以外の利用を禁じます。また本資料の全体、または一部の インターネットへのアップロード、または二次使用などを一切禁じます。

2.

調査の妥当性の判断と分布 独立した多様な要因に影響される母集団の分布は正規分布に近似 • 自然現象、身長、意見、感情、態度など • 収入や体重、売り上げ数、閲覧数などは正規分布にならないとされる その母集団から採取された標本の分布も正規分布に近似 • 充分なサンプルサイズがあること • 妥当性の高い調査の結果であること 正規分布に近似すると予測できる標本に分布の歪みがある場合 標本サイズが小さいか回答に偏りが生じている可能性がある

3.

正規分布の特徴 この区間に該当する標本の 割合を面積で表す 左右対称形で中央に山一つ 左右になだらかな裾が広がる 正規分布ではσ(標準偏差)の 幅で出現確率が決まる 中央に平均値(この場合は0が平均値 ©2007 M. W. Toews Wikimedia commons, cc by2.5

4.

正規分布ではσの区間に一定の%で 標本が含まれる 標本がとる値の範囲が異なってもこことここに含まれる標本の割合は同じ 範囲大の標本 つまりばらつきの大きさに関わらず、正規分布であれば 平均±σの範囲に標本の約68.3%が含まれる ばらつきの大きな標本=歪みのある標本ではない 範囲小の標本

5.

「歪みのある標本」とは?① 左右対称でない(片方の裾が長い)分布 •「歪度」という指標で表す •基準(正規分布の形であることを表す)値は0 •裾が右に長い(山が左寄り)場合は正の値、左に長い(山が右寄り)場合は負の値になる •0~±0.5未満は「歪み無し」、±0.5~±1未満は「やや歪み」、±1を超えると「大きなゆがみ」 吉田寿夫「本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本」北大路書房 p.53

6.

「歪みのある標本」とは?➁ 山が2つ以上ある、または裾がなだらかでない分布 • 「尖度」という指標で表す • 正規分布であることを表す基準値は本来3だがわかりにくいため統計ソフトでは0に補正されている • 裾が重い(中央に集中)場合は正、裾が軽い(全体に分散または複数の山が存在)場合は負になる • 歪度と異なり歪みの程度を判断する基準値がないので実際の分布も見て歪みの程度を判断する 吉田寿夫「本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本」北大路書房 p.55

7.

歪みのある標本とは③ 平均値が最大値または最小値に極端に偏った標本 天井効果 床効果 最大値<平均値+標準偏差 最小値>平均値-標準偏差 80 100 90 80 70 60 50 40 30 20 10 0 70 60 50 40 30 20 10 0 1 2 3 4 5 6 平均4.72 SD1.30 M+SD=6.02 1 2 3 4 5 6 平均1.99 SD1.25 M-SD=0.75

8.

標本に歪みが見られた場合 正規分布に近似する標本 多様な要因が独立して影響している 正規分布に近似していない 特定の要因の影響を強く受けている可能性 質問項目や実施手順に問題がある可能性 調査人数や項目、手順を見直す ただし絶対的な基準ではないので見直して問題なければそのまま分析する場合もある

9.

母集団の平均値と標本の平均値 社会調査で得られた結果は、回答者の傾向を示している 回答者の傾向=社会全体の傾向だろうか? • 統計では調査したい対象全体のことを「母集団」という • 「母」には「元になるもの」という意味がある • たとえば「大学生の収入」を調べるなら母集団は「(日本中の)大学生全員」で構成される • 世界規模で考えたいなら母集団は「世界中の大学生」になる • 対象全体の中から実際に調査された対象を「標本」という • 上の例なら「大学生の収入」調査で実際に回答した人達が「標本」を構成する

10.

母集団と標本の誤差 ■ 「母集団」の中から調査のために抽出された対象が「標本」 – 「母集団の構成要素」ではあるが「母集団そのもの」ではない ■ 母集団の全数調査でない限りは「調査結果」と「実際の母集団の傾向」 との間に誤差が生じる 標本:母集団の傾向と ずれが生じる 母集団 (偏りが無いように選んだならその時点で無作為 抽出ではなく母集団の傾向から偏ってしまう)

11.

調査したいのは「母集団」 調査しているのは「標本」 標本の結果から母集団の傾向を推定する必要がある ■ 点推定 – 平均値=母集団の平均値と推定する ■ どの程度ずれている可能性があるかわからず偶然性も高い – 「たまたま今回こういう結果だっただけ」かもしれない ■ 区間推定 – 母集団の平均がとり得る範囲を推定する ■ 実際の値とのずれを考慮できる ■ 偶然性を考慮する必要が低い – 精度は確率で表せる 栗原伸一・丸山敦史「統計学図鑑」オーム社

12.

どのように推定するか ① 正規分布の形を利用する 正規分布は基本の形が決まっている 正規分布になる対象の「平均値」と「標準偏差」が分かると • ある値が全体のどのあたりに位置するかがわかる • テストが75点だった時、上位から見て何%以内に入るのか? • 身長175cmは日本人の平均から見て何%の範囲に入るのか? • わりと普通なのか、結構高い方なのか? • 分布がどの程度の範囲に収まるかがわかる • 試験を受けた人の50%は何点から何点までの範囲に収まるか? • みんな何点くらいとっていたのか?

13.

涌井良幸・涌井貞美「文系のための統計学の教室」SB Creative 正規分布表 ① 横軸の値をaで表す ② 平均が0、標準偏差(σ)が1、全体の面積が1の正規分布を想定 ③ 平均0(=分布の中心)からaまでの範囲の面積を表にしたもの – 実際のデータには以下のようにあてはめる ■ 表の標準偏差が1なので、0~aは平均値から標本の標準偏差×aま での範囲とみなす – たとえば実際の標準偏差が1.5でaが2なら平均値から+3までの 範囲に含まれるデータの割合が調べられる ■ 全体が1(100%)なので、表の面積の値は分布内の割合に該当する – 面積は0からaの範囲に対象全体の何%が含まれているかを表す ことになる

14.

標準正規分布表 (Z=3.00まで) 縦の列は小数点1桁までの値、横の列は小数点2桁の値 を表す たとえば中心から平均±1.75σの範囲に全体の何%の データが含まれるか見たいとする 1. まず縦の1.70と横の0.05の交点にあたる位置を見る 2. 1.75の位置には0.4599と書いてあるので、0から正 方向と負の方向のそれぞれに全体の45.99%が含ま れることが分かる 3. 正負両方向に広がる範囲をみるなら面積を倍にする =平均±1.75σの範囲には全体の91.98%が含まれる 逆に全体の80%のデータが含まれる範囲を見るには80% の半分=0.400に近い値を表から探す。 1.28の0.3997が一番0.4に近いので、平均±1.28σの範囲 に約80%が含まれていることが分かる。 Z 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3 0 0 0.0398 0.0793 0.1179 0.1554 0.1915 0.2257 0.258 0.2881 0.3159 0.3413 0.3643 0.3849 0.4032 0.4192 0.4332 0.4452 0.4554 0.4641 0.4713 0.4772 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.4965 0.4974 0.4981 0.4987 0.01 0.004 0.0438 0.0832 0.1217 0.1591 0.195 0.2291 0.2611 0.291 0.3186 0.3438 0.3665 0.3869 0.4049 0.4207 0.4345 0.4463 0.4564 0.4649 0.4719 0.4778 0.4826 0.4864 0.4896 0.492 0.494 0.4955 0.4966 0.4975 0.4982 0.02 0.008 0.0478 0.0871 0.1255 0.1628 0.1985 0.2324 0.2642 0.2939 0.3212 0.3461 0.3686 0.3888 0.4066 0.4222 0.4357 0.4474 0.4573 0.4656 0.4726 0.4783 0.483 0.4868 0.4898 0.4922 0.4941 0.4956 0.4967 0.4976 0.4982 0.03 0.012 0.0517 0.091 0.1293 0.1664 0.2019 0.2357 0.2673 0.2967 0.3238 0.3485 0.3708 0.3907 0.4082 0.4236 0.437 0.4484 0.4582 0.4664 0.4732 0.4788 0.4834 0.4871 0.4901 0.4925 0.4943 0.4957 0.4968 0.4977 0.4983 0.04 0.016 0.0557 0.0948 0.1331 0.17 0.2054 0.2389 0.2704 0.2995 0.3264 0.3508 0.3729 0.3925 0.4099 0.4251 0.4382 0.4495 0.4591 0.4671 0.4738 0.4793 0.4838 0.4875 0.4904 0.4927 0.4945 0.4959 0.4969 0.4977 0.4984 0.05 0.0199 0.0596 0.0987 0.1368 0.1736 0.2088 0.2422 0.2734 0.3023 0.3289 0.3531 0.3749 0.3944 0.4115 0.4265 0.4394 0.4505 0.4599 0.4678 0.4744 0.4798 0.4842 0.4878 0.4906 0.4929 0.4946 0.496 0.497 0.4978 0.4984 0.06 0.0239 0.0636 0.1026 0.1406 0.1772 0.2123 0.2454 0.2764 0.3051 0.3315 0.3554 0.377 0.3962 0.4131 0.4279 0.4406 0.4515 0.4608 0.4686 0.475 0.4803 0.4846 0.4881 0.4909 0.4931 0.4948 0.4961 0.4971 0.4979 0.4985 0.07 0.0279 0.0675 0.1064 0.1443 0.1808 0.2157 0.2486 0.2794 0.3078 0.334 0.3577 0.379 0.398 0.4147 0.4292 0.4418 0.4525 0.4616 0.4693 0.4756 0.4808 0.485 0.4884 0.4911 0.4932 0.4949 0.4962 0.4972 0.4979 0.4985 0.08 0.0319 0.0714 0.1103 0.148 0.1844 0.219 0.2517 0.2823 0.3106 0.3365 0.3599 0.381 0.3997 0.4162 0.4306 0.4429 0.4535 0.4625 0.4699 0.4761 0.4812 0.4854 0.4887 0.4913 0.4934 0.4951 0.4963 0.4973 0.498 0.4986 0.09 0.0359 0.0753 0.1141 0.1517 0.1879 0.2224 0.2549 0.2852 0.3133 0.3389 0.3621 0.383 0.4015 0.4177 0.4319 0.4441 0.4545 0.4633 0.4706 0.4767 0.4817 0.4857 0.489 0.4916 0.4936 0.4952 0.4964 0.4974 0.4981 0.4986

15.

どのように推定するか➁ 標本平均の性質を利用する:大数の法則 ■ 母集団から標本を採取して平均をとることを繰り返す ■ 繰り返された標本平均の分布は、標本サイズが大きくなる ほど母平均に近い値が出やすくなり、散布度も小さくなる つまり調査の標本サイズ が充分大きければ標本の 平均値と母集団の平均値 が一致する可能性が高い 栗原伸一・丸山敦史「統計学図鑑」オーム社

16.

どのように推定するか③ 標本平均の性質を利用する:中心極限定理 ■ 標本平均の分布は正規分布に近似するとされる – 標本サイズが大きい程正規分布に近くなる – 標本平均の平均は母集団の平均μに一致する – 標本平均の標準偏差は√母集団の分散÷標本人数になる ■ この値を標準誤差(standard error; SE)という 涌井良幸・涌井貞美「統計学の図鑑」技術評論社

17.

参考:「1から20までの値をランダムサンプリング した標本の平均値」の分布(標本数700) 1から20までの値が同じ確率で出現する場合、平均値は10.5になると考えられる • 標本数が少ないと標本ごとの平均値のばらつきは大きい(本来の平均値から離れた値が出やすい) • 標本数が増えるほど標本の平均値は10.5に近づき、散布度も小さい(母集団の平均に一致しやすい)

18.

標本平均と正規分布の特徴を利用して 母集団の平均が入る範囲を推測する① ■ 標本平均の特徴③「中心極限定理」から標本平均分布を推測 1. 調査で得られた標本平均は「標本平均分布」に含まれる値 の1つ 2. 標本平均の分布は(標本サイズが30以上ならば)「平均値 が標本平均値、標準偏差が√母集団の分散÷標本人数」の 正規分布に近似する 標準誤差 ■ 平均、標本人数は調査人数と調査結果の平均をあてはめる ■ 母集団の分散は不偏分散を利用する – 不偏分散𝜎 2 = σ xi −തx 2 n−1 nは標本の人数を表す。 標本の分散はn(人数)で割るが、母集団の分散は標本より 小さいのでn-1で割ることで補正したのが不偏分散。

19.

標本平均と正規分布の特徴を利用して 母集団の平均が入る範囲を推測する➁ ■ 複数存在する「標本の平均」の中で発生する確率が何%までの 範囲を「母集団の平均が入る範囲」として採用するか決める – 正規分布の左端、右端は確率が低くてもいいならどこまで も伸ばすことができるので、値の範囲を区切る必要がある – 慣習的に95%範囲が利用される ―4σ、―5σ… 4σ、5σ… 99.9999…%と確率をふやしていいのであれば4σ、5σ…と範囲を広げていけるが 推定の範囲が広すぎる(たとえば100点満点のテストで「平均は0から100点の 間です」と推定する)と推定としての意味がないので範囲を決めて区切る ©2007 M. W. Toews Wikimedia commons, cc by2.5

20.

信頼区間とは ■ 母集団の平均が存在すると考えられる範囲のこと – 標本から推測される標本分布は、標本と母集団の平均と の誤差の分だけ位置がずれていると考えられる – 標本平均の95%までを信頼区間としたならば、一番左端、 右端にあたる値(下限値、上限値)は信頼区間の中にぎり ぎり母集団平均が含まれることになる ■ 95%の範囲を外れると信頼区間には母集団平均が含まれない ■ 95%の信頼区間とは、100回標本平均をとった場合に、その うち95回分の標本平均の信頼区間に母集団平均が含まれる ことを意味する

21.

信頼区間のイメージ 標本平均の分布 ある標本平均が信頼区間の 下限ぎりぎりの値だとする ©2016 ARAKI Satoru Wikimedia Commons, CC 表示-継承 4.0 母集団の平均 標本平均の95%が存在する範囲 (青で塗られた面積) 95%信頼区間 推定された標本分布の位置は ここになる ある標本の平均 この標本の信頼区間 標本平均が下限値で あれば信頼区間ぎり ぎりが母集団の平均 である可能性がある ある標本平均が上限ぎり ぎりの値でも同様に信頼 区間に母集団の平均が含 まれる。 逆に5%の確率で生じる 「信頼区間を外れた標本 平均」で区間推定した場 合、その中には母集団の 平均は含まれていないこ とになる。

22.

信頼区間の 意味 実質的には「母集団の平均 が95%の確率で存在する範 囲」だが、 厳密には「推定範囲に母集 団の値が含まれる確率が 95%ある範囲」ということ になる。 栗原伸一・丸山敦史「統計学図鑑」オーム社

23.

標本平均と正規分布の特徴を利用して 母集団の平均が入る範囲を推測する③ ■ 分布全体の95%=面積95%あたる範囲を信頼区間とする ■ 区間の幅は標準偏差で調べられる – 面積95%の範囲は平均値±標準偏差×a – aの値を正規分布表で調べる 半分の 47.5% ■ 分布表は平均から正方向のみを扱う 平均 ■ 表には実際に調べる範囲の半分の面積について書かれてい るので95%=0.950を2で割った0.475の値を表から探す この範囲が標準偏差 の何倍かが正規分布 ■ 縦と横に辿ると1.96であることが分かる 表でわかる ■ つまり平均値±標準偏差×1.96の範囲が信頼区間となる

24.

ビデオリサーチ社:視聴率(関東地区2700世帯) 百分率(%)の信頼区間(母比率の推定) ■ %の値と標本サイズがわかれば母集団の比率を区間推定できる – 標本分布の標準偏差(=標準誤差)は次の式で算出する p 1−p n – n=標本サイズ、pは信頼区間を調べたい確率 ■ 標本サイズは実際に回答した人数で計算する ■ 例えば144人を調査して35%が使用しているアプリがあるとする – 35%=0.35なので確率pに0.35、nには調査人数144を代入 ■ 0.35× 1−0.35 144 = 0.078 が標準誤差となる – 信頼区間95%なら確率p±1.96×標準誤差で信頼区間を算出 ■ 0.35+1.96× 0.078=0.428が上限、 0.35―1.96× 0.078=0.272が下限 ■ 「95%の確率で母集団の%は27.2%から42.8%の間にある」と推定できる