統計学II-1

21.1K Views

February 18, 23

スライド概要

2022年度統計学IIの講義資料です。

profile-image

好きな色は緑です。

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

統計学 II-1 ・推測統計の導入 ・標本抽出 ・点推定 ・標本分布 ・区間推定 ・仮説検定 https://logics-of-blue.com/

2.

本資料について 本資料の成り立ち 馬場が担当する学部1年生向け統計学IIの講義資料抜粋 統計学を初めて学ぶ、文系の学生が受講する想定 統計学IIは統計学Iの続きであることに注意 本資料の取り扱い あくまでも、本来の講義資料の抜粋なので注意 (計算演習・講義内クイズ・前回講義の復習 口頭での説明内容等は省略) SNSなどでスライドのスクショを張り付けるのは、 避けてほしい (文脈がわからないと、誤った理解を促すため) 2

3.

本資料について 本資料の使い方 想定①:講義の受講者が復習に利用する 想定②:未受講者が統計学入門資料として利用する ※想定②の場合は、下記参考文献も参照すること 参考文献 馬場真哉,2022,翔泳社 『Pythonで学ぶあたらしい統計学の教科書 第2版』 倉田博史・星野崇宏,2009,新世社 『入門統計解析』 鈴木武・山田作太郎,1996,内田老鶴圃 『数理統計学』 3

4.

本資料の範囲 1.オリエンテーション 2.推測統計の基本 3.母平均と標本平均 4.母分散と標本分散 5.正規分布から得られる標本分布1 6.正規分布から得られる標本分布2 7.区間推定1:母平均の区間推定 8.区間推定2:母分散の区間推定 9.中間テスト

5.

統計学 II 第1回:オリエンテーション 5

6.

内容 1.自己紹介 2.講義の進め方 3.後期の統計学IIでは何を学ぶか 4.「モデル」とその使い方 5.後期のスケジュール 6

7.

自己紹介 7

8.

自己紹介 名前 馬場真哉 学生の頃の専門 水産学 前職 システムエンジニア フリーランス 現職 東京医科歯科大非常勤講師 岩手大客員准教授 帝京大学講師(1年生)

9.

本も書いています(2023年2月現在の書作) 1. 馬場真哉 (2022). Pythonで学ぶあたらしい統計学の教科書 第2版. 翔泳社. 【https://www.shoeisha.co.jp/book/detail/9784798171944】 2. 馬場真哉 (2021). 意思決定分析と予測の活用 基礎理論からPython実装まで. 講談社. 【https://www.kspub.co.jp/book/detail/5222270.html】 3. 馬場真哉 (2020). R言語ではじめるプログラミングとデータ分析. ソシム. https://www.socym.co.jp/book/1238】 4. 馬場真哉 (2019). RとStanではじめる ベイズ統計モデリングによるデータ分析入門. 講談社. 【https://www.kspub.co.jp/book/detail/5165362.html】 5. 馬場真哉 (2018). Pythonで学ぶあたらしい統計学の教科書. 翔泳社. 【https://www.shoeisha.co.jp/book/detail/9784798155067】 6. 馬場真哉 (2018). 時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装. プレアデス出版. 【http://www.pleiades-publishing.co.jp/pdf/pdf08.html】 7. 馬場真哉 (2015). 平均・分散から始める一般化線形モデル入門. プレアデス出版. 【http://www.pleiades-publishing.co.jp/pdf/pdf02.html】

10.

講義の進め方 10

11.

内容 1.講義の前提 2.講義全体について 11

12.

内容 1.講義の前提 2.講義全体について 12

13.

講義の前提 「統計学II」は前期の「統計学I」の続きです 前期で「統計学I」を受講していない人は、 後期の「統計学II」を理解することは難しいかも (すごく一所懸命勉強すればいけるかも?) 基本的に「講義I」と「講義II」はセット 「II」だけ受けるというのはお勧めしない

14.

講義の前提 前期の「統計学I」の内容 記述統計 →データを集計する方法 重要単語)平均・分散・共分散・相関係数・基準化変量 確率論 →確率的に変動する結果の取り扱い方法 重要単語)確率変数・確率分布・確率密度関数 期待値・分散・独立 確率変数の和の期待値と分散

15.

内容 1.講義の前提 2.講義全体について 15

16.

後期の統計学IIでは何を学ぶか 16

17.

内容 1.前期と後期の違い 2.記述統計と推測統計(復習) 3.モデルの利用 17

18.

内容 1.前期と後期の違い 2.記述統計と推測統計(復習) 3.モデルの利用 18

19.

授業の到達目標 授業の到達目標(シラバスより) ★前期★ ①統計学についてのイメージをつかみ、 データを利用する必要性を理解する。 ②データの整理と要約の技術を習得する。 具体的には、ヒストグラム・散布図などのグラフや、 平均・分散・相関係数などの統計量を利用できるようになる。 ③確率論の基礎を理解する。 具体的には期待値について理解し、 二項分布や正規分布といった確率分布が利用できるようになる。 また、確率変数の和の分布に対する 直観的なイメージを持てるようになる。 19

20.

授業の到達目標 授業の到達目標(シラバスより) ★後期★ ①推測統計の基本的な考え方を理解する。 特に標本抽出の考え方を習得する。 ②統計的推定の理論と技術を習得する。 具体的には、点推定値の特性について説明できるようになる。 また、区間推定を実行できるようになる。 ③統計的仮説検定の理論と技術を習得する。 特に統計的仮説検定を実施する際の 注意点について説明できるようになる。 20

21.

授業の到達目標 授業の到達目標(シラバスより) ★後期★ ①推測統計の基本的な考え方を理解する。 特に標本抽出の考え方を習得する。 ②統計的推定の理論と技術を習得する。 具体的には、点推定値の特性について説明できるようになる。 また、区間推定を実行できるようになる。 ③統計的仮説検定の理論と技術を習得する。 特に統計的仮説検定を実施する際の 注意点について説明できるようになる。 後期のメインは推測統計! 21

22.

内容 1.前期と後期の違い 2.記述統計と推測統計(復習) 3.モデルの利用 22

23.

記述統計と推測統計(復習) 統計学とは データを収集、表示、解析する科学 以下の2つに分けられる Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 記述統計 なるべく情報量を減らさないで 比較・解釈を簡単にする集計方法を探る 推測統計 全体の一部である標本だけを使って、 まだ手に入れていない未知データの推測・予測をする (確率論の理解が必須) 23

24.

記述統計と推測統計(復習) 記述統計で登場した指標の復習① 度数 ある属性に属するデータの数のこと 度数分布 属性と度数を対応させたもの 度数分布表 度数分布を表にしたもの どんなデータが、何個あったかを数える

25.

記述統計と推測統計(復習) そもそも分布って? データの「分布」のイメージをしっかりつかもう 動物の分布 身長データの分布 ・キリン →アフリカに存在 データの多くは 170㎝前後に存在している ・キタキツネ →北海道に存在 160㎝前後と190㎝前後では、 160㎝前後の方が 多くのデータが存在している ・コウテイペンギン →南極に存在 25

26.

記述統計と推測統計(復習) 度数分布表の例:身長の構成 合計:25人 階級 155~164.9㎝ 5 度数 165~174.9㎝ 12 175~184.9㎝ 6 185~194.9㎝ 2 どのようなデータがどれくらいあるのか 一目でわかる表

27.

階級 記述統計と推測統計(復習)155~164.9㎝ 165~174.9㎝ ヒストグラム 175~184.9㎝ 度数分布を棒グラフで表したもの 185~194.9㎝ 分布を可視化!! 度数 5 12 6 2 27

28.

記述統計と推測統計(復習) 記述統計で登場した指標の復習② 統計量・代表値 データの特徴を把握するのに便利な指標 平均値 データの分布の中心としてしばしば利用される 分散 データのばらつきの指標としてしばしば利用される 分散の平方根(ルート)をとったものを標準偏差と呼ぶ 特に重要なのが平均値と分散・標準偏差

29.

記述統計と推測統計(復習) 統計量・代表値 データの特徴を把握するのに便利な指標 データから計算される →記述統計では「代表値」という言葉も多く使われる データを代表する指標というニュアンス →厳密には「データを入力して、指標を出力する関数」を 統計量と呼ぶ(データの中身が変わるから) データ 指標 29

30.

記述統計と推測統計(復習) 代表値 たくさんのデータを代表する値 →データの分布の中心 ばらつきの指標 データの分布の中心から、 個別のデータがどれほど離れているか 30

31.

記述統計と推測統計(復習) データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 𝑥ҧ = ෍ 𝑥𝑖 𝑛 𝑖=1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = 𝑛 平均値は伝統的に「バー(横棒)」をつける 𝑥𝑖 の平均値は𝑥ҧ 31

32.

記述統計と推測統計(復習) データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 𝑠2 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 分散の計算は 少し難しいので注意 (講義中でも復習する予定) 𝑖=1 = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑛 2 個別のデータ𝑥𝑖 と平均値𝑥が離れていたら ҧ 分散は大きな値をとる 32

33.

記述統計と推測統計(復習) 分散 データが「平均値からどれほど離れているか」 を表す指標 売り上げ(万円) 分散大 分散小 1000 500 0 平均値 33

34.

記述統計と推測統計(復習) 分散 データが「平均値からどれほど離れているか」 を表す指標 平均値から 売り上げ(万円) 分散大 離れている 分散小 1000 500 0 平均値 34

35.

記述統計と推測統計(復習) 分散 データが「平均値からどれほど離れているか」 を表す指標 売り上げ(万円) 分散大 1000 500 0 多くのデータが、 分散小 平均値から離れている →分散が大きくなる 平均値 35

36.

記述統計と推測統計(復習) 分散の扱いにくいところ 分散は計算時に「2乗」する処理が入る →正負の符号を消せる →単位が変わってしまっている 標準偏差 分散の平方根を取ったもの 標準偏差 = 分散 平方根(ルート)をとって2乗を消す 36

37.

記述統計と推測統計(復習) 記述統計で登場した指標の復習(まとめ) 前期ではたくさんの指標が出てきたが、 特に「度数分布(ヒストグラム)」と 「平均」「分散」「標準偏差」 をしっかりと復習しておくのがおすすめ まったく新しい指標は登場しない 今までの指標を組み合わせることが多い

38.

記述統計と推測統計(復習) 推測統計の目的 まだ手に入れていない未知データの推測・予測 ところで…… わざわざ未知のデータに言及する意義は? 38

39.

記述統計と推測統計(復習) 推測統計がない時(未知のデータに対して言及しない) 今日の夜まで 広告を出すことで、売り上げが増えました でも・・・ 明日からは 広告を出すことで売り上げが増えるか減るか不明です 何のためのデータ分析?

40.

記述統計と推測統計(復習) 推測統計がない時(未知のデータに対して言及しない) 手持ちのデータ 今日の夜まで 広告を出すことで、売り上げが増えました まだ持っていない未知のデータ 明日からは 広告を出すことで売り上げが増えるか減るか不明です データに基づく判断のために、 未知のデータへ言及をする

41.

記述統計と推測統計(復習) 推測統計がある時(未知のデータに対して言及する) 今日の夜まで 広告を出すことで、売り上げが増えました だから 明日からも 広告を出すことで売り上げが増えるはずです ★売り上げUPのために広告を出そう!!! この流れこそが「データに基づく判断」

42.

記述統計と推測統計(復習) データの集計 今日の夜まで、広告を出すことで、売り上げが増えた データに基づく判断 明日からも、広告を出すことで売り上げが増えるはず データに基づく意思決定 明日からも広告を出すべきだ 未知のデータに対して推測・予測を行い、 データを活用した意思決定につなげる

43.

記述統計と推測統計(復習) 推測統計の大きなテーマ 未知データに対する推測 未知データも対象とした判断 ● 区間推定の活用 ● 統計的仮説検定の活用 →主に後期の内容

44.

内容 1.前期と後期の違い 2.記述統計と推測統計(復習) 3.モデルの利用 44

45.

モデルの利用 確率論の話はどこに行った 前期は中間テストの後、ずっと確率論を学んだ 確率論とデータ分析関係なくない? 関係あります! データ分析と確率論をつなげるもの。それが モデル 45

46.

モデルの利用 後期では何を学ぶか やや極端な言い方になるが、後期のほとんどは 「モデル」の使い方を学ぶと言っても良い モデル 現象を単純化した「模型」のこと プラモデルのモデル 後期ではモデルの使い方を 何度もシチュエーションを変えて 説明する 46

47.

モデルの利用 「現実」と「机上の空論」の間 確率論では「コインを投げて表が出る確率は50%」など 作為的な事例が頻繁に登場した 確率論を学んだ人の多くは「なんだか現実離れしている」 感じることだと思う 現実世界の出来事 メモ モデル 理論上での計算 モデルを使って、現実と理論をつなぐ 47

48.

「モデル」とその利用 48

49.

内容 1.モデルの利用方法 2.統計学におけるモデル 3.モデルと推測統計 49

50.

内容 1.モデルの利用方法 2.統計学におけるモデル 3.モデルと推測統計 50

51.

モデルとは モデル 現象を単純化した「模型」のこと プラモデルのモデル モデルを使うメリット 実際に行動する前に、結果について議論できる 51

52.

モデルとは モデルの例 飛行機のモデル(模型)を考える ぼくの考えた「さいきょう」の 飛行機だよ!! (馬場が描きました) プロペラが無いので飛ばない 52

53.

モデルとは モデルの例 飛行機のモデル(模型)を考える モデルを使えば、 実際に行動する前に、結果について議論できる 何億円ものお金をかけて本物を作る前に、 空気抵抗や推進力などいろいろなことを検討できる 統計学IIでプラモデルを作ることはない 統計モデルと呼ばれるモデルを作る 53

54.

内容 1.モデルの利用方法 2.統計学におけるモデル 3.モデルと推測統計 54

55.

統計学におけるモデル モデル 模型。現実世界の模型を作る 統計学におけるモデル 観測したデータを生み出す確率的な過程を 簡潔に記述したもの。 Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 「データを生み出す確率的な過程」や 「データが得られる過程」に着目 55

56.

統計学におけるモデル 今回の事例 湖の中にいる魚の体長を推測する 推測統計における課題 湖の中には無数の魚がいる →すべての魚の体長を測定することはできない →湖の中から一部の魚だけを捕まえて体長を測定する 56

57.

統計学におけるモデル 母集団:知りたいと思っている集団全体 →今回の例では、湖の中にいるすべての魚 57

58.

統計学におけるモデル 標本(サンプル):手に入れた一部のデータ 標本抽出(サンプリング):標本を得る行為 58

59.

統計学におけるモデル たまたま 「中くらいのサイズ」 の魚が釣れた 59

60.

統計学におけるモデル たまたま 「小さめのサイズ」 の魚が釣れた 60

61.

統計学におけるモデル たまたま 「大きめのサイズ」 の魚が釣れた 61

62.

統計学におけるモデル ランダムに一部の魚を標本として抽出 ここで確率が登場する 62

63.

統計学におけるモデル 湖の中のすべての魚の体長 母集団 すべてのデータ 未知のデータを含む 標本 母集団の一部 手に入ったデータ 釣りをして得られた魚の体長 標本を使って、母集団について議論する 手持ちのデータで未知データの議論をする

64.

統計学におけるモデル 母集団にまつわる用語 母平均→母集団の平均 母分散→母集団の分散 (標本平均とは区別) (標本分散とは区別) 母平均を推定してみよう 母集団分布の平均を言い当てることを目指す 64

65.

統計学におけるモデル 「釣った魚」の体長の平均値 が4cmだった(標本平均) だから 「湖の中のすべての魚」も 体長の平均値は 4cmなのでは?(母平均) 65

66.

統計学におけるモデル 母平均の推定くらい、簡単? 標本平均を計算して、それを母平均だと考えてみる →標本平均が4cmなら、母平均も4cmだと推測する なんか4cmって小さくない? 標本平均に5を足した結果を使おうぜ! たくさんのデータを集計するの面倒だな~ そうだ、データを1つだけ選んで、それを使おう! 無茶苦茶な意見に聞こえる でも、具体的に「何が悪い」のか? 66