84.3K Views
February 18, 23
スライド概要
2022年度統計学Iの講義資料です。
好きな色は緑です。
統計学 I-1 ・統計学の導入 ・記述統計 ・確率論 https://logics-of-blue.com/
本資料について 本資料の成り立ち 馬場が担当する学部1年生向け統計学Iの講義資料抜粋 統計学を初めて学ぶ、文系の学生が受講する想定 本資料の取り扱い あくまでも、本来の講義資料の抜粋なので注意 (計算演習・講義内クイズ・前回講義の復習 口頭での説明内容等は省略) SNSなどでスライドのスクショを張り付けるのは、 避けてほしい (文脈がわからないと、誤った理解を促すため) 2
本資料について 本資料の使い方 想定①:講義の受講者が復習に利用する 想定②:未受講者が統計学入門資料として利用する ※想定②の場合は、下記参考文献も参照すること 参考文献 馬場真哉,2022,翔泳社 『Pythonで学ぶあたらしい統計学の教科書 第2版』 倉田博史・星野崇宏,2009,新世社 『入門統計解析』 鈴木武・山田作太郎,1996,内田老鶴圃 『数理統計学』 3
本資料の範囲 1.統計学とは 2.データの種類・データのまとめ方の基本 3.一次元データの整理 4.二次元データの整理 5.記述統計の応用 6.グラフの活用・前半のまとめ 7.中間テスト
統計学 I 第1回:統計学とは 2022年04月18日(月)
内容 1.自己紹介 2.講義の進め方 3.統計学では何を学ぶか
自己紹介
自己紹介 名前 馬場真哉 学生の頃の専門 水産学 前職 システムエンジニア フリーランス 現職 東京医科歯科大非常勤講師 岩手大客員准教授 帝京大学講師(1年生)
本も書いています(2023年2月現在の書作) 1. 馬場真哉 (2022). Pythonで学ぶあたらしい統計学の教科書 第2版. 翔泳社. 【https://www.shoeisha.co.jp/book/detail/9784798171944】 2. 馬場真哉 (2021). 意思決定分析と予測の活用 基礎理論からPython実装まで. 講談社. 【https://www.kspub.co.jp/book/detail/5222270.html】 3. 馬場真哉 (2020). R言語ではじめるプログラミングとデータ分析. ソシム. https://www.socym.co.jp/book/1238】 4. 馬場真哉 (2019). RとStanではじめる ベイズ統計モデリングによるデータ分析入門. 講談社. 【https://www.kspub.co.jp/book/detail/5165362.html】 5. 馬場真哉 (2018). Pythonで学ぶあたらしい統計学の教科書. 翔泳社. 【https://www.shoeisha.co.jp/book/detail/9784798155067】 6. 馬場真哉 (2018). 時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装. プレアデス出版. 【http://www.pleiades-publishing.co.jp/pdf/pdf08.html】 7. 馬場真哉 (2015). 平均・分散から始める一般化線形モデル入門. プレアデス出版. 【http://www.pleiades-publishing.co.jp/pdf/pdf02.html】
講義の進め方
統計学では何を学ぶか
内容 1.統計学について 2.記述統計について 3.推測統計について 4.確率論について
統計学とは何か 統計学 データを収集、表示、解析する科学 Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 「統計学とは何か」に対する個人的な回答 データの“良い”使い方を学ぶための学問 なぜデータを利用するのだろう?
データ活用事例① ナイチンゲールさんの統計活用
統計学とは何か ナイチンゲール(人名) イタリアのフローレンス生まれ クリミア戦争中の看護師としての業績で知られる Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 参考:ナイチンゲールと統計(最終閲覧2022年1月17日) http://www.stat.go.jp/naruhodo/15_episode/episode/nightingale.html 「統計学辞典」にナイチンゲールの名前が
統計学とは何か ナイチンゲールの業績 戦死者のデータを収集した そして「死亡原因」を集計した 画像省略 参考:ナイチンゲールと統計(最終閲覧2022年1月17日) http://www.stat.go.jp/naruhodo/15_episode/episode/nightingale.html
統計学とは何か ナイチンゲールの業績 データから、死者が増える原因を調べた 怪我による死亡 < 感染症による死亡 参考:ナイチンゲールと統計(最終閲覧2022年1月17日) http://www.stat.go.jp/naruhodo/15_episode/episode/nightingale.html 怪我をした後、感染症が広がらないように 病院の衛生状態を改善 →死者の数が激減
データ活用事例② 電車の駅ホームにおける椅子の向きについて
統計学とは何か データ活用の事例:駅ホームのベンチの向き データから、線路に転落する理由を調べた 酔っぱらった人が、椅子から立ち上がった時 線路へ向かって転落している!? 参考:乗り物ニュース(最終閲覧2022年1月17日) 駅ホームのベンチ「向き変更」広がる 関西発祥の安全対策、関東でも拡大 https://trafficnews.jp/post/84818
統計学とは何か データ活用の事例:駅ホームのベンチの向き 線路 駅ホーム 椅子が線路向き →落ちやすい ベンチ
統計学とは何か データ活用の事例:駅ホームのベンチの向き 線路 駅ホーム ベンチ 椅子が線路と直角 →落ちにくい!!
統計学とは何か データ活用の事例:駅ホームのベンチの向き データから、線路に転落する理由を調べた 酔っぱらった人が、椅子から立ち上がった時 線路へ向かって転落している! →椅子の向きを変えてみよう! ……でも、本当に効果があるのかな?? →効果があるか、データを使って確かめよう! データを集め、分析することで、 少ない費用で、大きな成果が得られるかも (人間の命に関わる改善になるかも)
統計学とは何か 統計学の使い道(例) 売れている商品と、売れていない商品を比較 →売れている理由を見つけて、売り上げを伸ばす 絶滅の危機にある生物が たくさんいる場所と、いない場所を比較 →生物が生息できる条件を調べて、保護に活かす データを使って、社会を改善。仕事に活用
統計学とは何か 統計学は便利♪ データを分析すると…… 死者を減らせる(だろう) 売り上げを伸ばせる(だろう) データを中途半端に利用すると、 手痛い失敗をするかもしれない
統計学とは何か 1.データを分析することで、 社会を良くできるかもしれない 2.データ分析のやり方を間違えると、 逆に損をするかもしれない データ活用のメリット・注意点を両方学ぶ
内容 1.統計学について 2.記述統計について 3.推測統計について 4.確率論について
記述統計について 目的: 手持ちのデータの集計・整理 例)データの平均値を使う 複数の数値(データ) 4 3 4+3 平均値 = = 3.5 2
記述統計について たくさんの数値(データ) 4.5 3.2 7.4 15.6 1.8 12.4 2.8 6.3 9.0 10.1 少しの集計値 平均:7.3 集計すると結果が見やすい
集計のメリット・デメリット メリット データの比較や解釈が簡単になる デメリット 単一の集計値だけだと、情報が大きく減る 恣意的に、解釈をゆがめることができる
集計のメリット・デメリット 学生の貯金額を調べて 金銭的補助の必要性を把握しよう 貯金額 Aさん Bさん Cさん Dさん 1000万 0円 0円 0円 貯金額の平均値 1000 + 0 + 0 + 0 = 250 4 貯金250万もあるから補助はいらないね!
集計のメリット・デメリット 学生の貯金額を調べて 金銭的補助の必要性を把握しよう 貯金額 Aさん Bさん Cさん Dさん 1000万 0円 0円 0円 一人を除き、学生は全員、貯金が0円!! 平均値だけを見て判断してはいけない
記述統計 記述統計の大きなテーマ なるべく情報量を減らさないで 比較・解釈を簡単にする集計方法を探る ● 平均以外の、複数の集計値を併記する ● グラフの活用 →前期の前半(中間テストまで)で扱う
内容 1.統計学について 2.記述統計について 3.推測統計について 4.確率論について
推測統計 目的:まだ手に入れていない未知データの推測・予測 わざわざ未知のデータに言及する意義は?
推測統計 推測統計がない時(未知のデータに対して言及しない) 今日の夜まで 広告を出すことで、売り上げが増えました でも・・・ 明日からは 広告を出すことで売り上げが増えるか減るか不明です 何のためのデータ分析?
推測統計 推測統計がない時(未知のデータに対して言及しない) 手持ちのデータ 今日の夜まで 広告を出すことで、売り上げが増えました まだ持っていない未知のデータ 明日からは 広告を出すことで売り上げが増えるか減るか不明です データに基づく判断のために、 未知のデータへ言及をする
推測統計 推測統計がある時(未知のデータに対して言及する) 今日の夜まで 広告を出すことで、売り上げが増えました だから 明日からも 広告を出すことで売り上げが増えるはずです ★売り上げUPのために広告を出そう!!! この流れこそが「データに基づく判断」
推測統計 データの集計 今日の夜まで、広告を出すことで、売り上げが増えた データに基づく判断 明日からも、広告を出すことで売り上げが増えるはず データに基づく意思決定 明日からも広告を出すべきだ 未知のデータに対して推測・予測を行い データを活用した意思決定につなげる
推測統計 推測統計の大きなテーマ 未知データに対する推測 未知データも対象とした判断 ● 区間推定の活用 ● 統計的仮説検定の活用 →主に後期の内容
内容 1.統計学について 2.記述統計について 3.推測統計について 4.確率論について
確率論について データを分析するのに、なぜ確率が必要か? 統計学の教科書では、思い出したように(?) 確率論がいきなり現れる →前期の後半(中間テスト以降)は確率論 確率論が、なぜ、どのようにして使われるのか、 データを分析するのに、なぜ確率を学ぶ必要があるのか、 推測統計の基本的な考え方と合わせて説明
データに基づく判断・意思決定のために 【記述統計】手持ちのデータの集計 【推測統計】未知のデータに対する判断・推測 推測統計を理解するためには、確率の知識が必要 ・・・・・・なぜ?
内容 1.ガチャの事例 2.湖調査の事例
内容 1.ガチャの事例 2.湖調査の事例
確率論を学ぶ意義 ダメそうな推論の仕方 スマホゲームで10連ガチャを回しても、当たりが出ない ↓ このガチャは、当たりが一人も入ってない。不正だ!! 根拠のないクレームでは?
確率論を学ぶ意義 ダメそうな推論の流れ Step1.データ取得:10連ガチャを回す 結果:当たりキャラが出ない ↓ Step2.未知のデータに対する推測 このガチャでは、当たりキャラ出現率が0%である! ↓ Step3.予測 誰が回しても、ガチャで当たりなんか出ないよ!!! この推測・予測は明らかに間違い 確率的に、当たったり外れたりするはず
確率論を学ぶ意義 確率論で学ぶこと 問い: SSRの当たり率が2%(0.02)のガチャを100回実行した時 当たりが1回も出ない確率は? ① 1%未満 ④ 11~15% ② 1~5% ③ 6~10% ⑤ 16~20% 答え: およそ13%なので④が正解 確率的に変化する結果について 理解を深める
確率論を学ぶ意義 もしかして、本当に不正ガチャかも? 問い:(SSRの当たり率は2%) 1000回やっても当たりが出ない。 1000回実行して当たりが1回も出ない確率は? ① 1%未満 ④ 11~15% ② 1~5% ③ 6~10% ⑤ 16~20% 答え: ほぼ0%なので①が正解 ガチャ不正の根拠にするためには、 何回ガチャを回す必要があるだろう?
内容 1.ガチャの事例 2.湖調査の事例
推測統計の使い道 すべての魚(およそ1億尾) 湖にいる魚の体長を調べたい しかし全ての魚の体長を調べるのは無理 50
推測統計の使い道 500尾くらいなら、 体長を調べられそう 51
推測統計のテーマ 湖の中のすべての魚の体長 母集団 すべてのデータ 未知のデータを含む 標本 母集団の一部 手に入ったデータ 釣りをして得られた魚の体長 標本を使って、母集団について議論する 手持ちのデータで未知データの議論をする
確率はどこで登場するか たまたま 「中くらいのサイズ」 の魚が釣れた 53
確率はどこで登場するか たまたま 「小さめのサイズ」 の魚が釣れた 54
確率はどこで登場するか たまたま 「大きめのサイズ」 の魚が釣れた 55
確率はどこで登場するか ランダムに一部の魚を標本として抽出 ここで確率が登場する 56
確率はどこで登場するか 同じ母集団から標本を抽出しても、毎回違う結果になる 平均3cm 平均7cm 確率的に結果が変わる! 確率的に、標本の体長の平均値が 大きくなったり小さくなったりする
確率論を学ぶ意義 確率論を学ぶ理由① 後期で学ぶ推測統計の基礎となるから →推測統計を理解するためには、確率論の理解が必須 確率論を学ぶ理由② 確率論そのものも、ビジネスで活用できる →誤った解釈をしないように 確率論を扱ったビジネス書も多く出版されている (基本的には、講義指定の教科書が1冊あれば十分)
推測統計と確率論の関わり 推測統計では確率論の理解が必要 標本(データ)は、確率的に得られるから 推測統計学の用語(詳しくは後期で解説) 母集団 未知データを含む、対象全体 標本 母集団の一部。手に入るデータはこれだけ
まとめ メモ 統計学とは データを収集、表示、解析する科学 Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 以下の2つに分けられる 記述統計 なるべく情報量を減らさないで 比較・解釈を簡単にする集計方法を探る 推測統計 全体の一部である標本だけを使って、 まだ手に入れていない未知データの推測・予測をする (確率論の理解が必須)
今後の講義(予定):記述統計 1.統計学とは(本日) 2.データの種類・データのまとめ方の基本 3.一次元データの整理 4.二次元データの整理 5.記述統計の応用 6.グラフの活用・前半のまとめ 7.中間テスト
今後の講義(予定):確率論 8.確率論の基礎1 9.確率論の基礎2 10.確率分布の基礎1 11.確率分布の基礎2 12.代表的な確率分布 13.多次元確率分布の基礎 14.独立同一分布に従う確率変数 15.期末テスト
データを扱う際の注意点 ちょっとした頭の体操
データを扱う際の注意点 あるお店のデータ(本物のデータではない) 商品の販促(販売促進の略語。例えば宣伝とか)を した時・しなかった時で、売り上げのデータを比較した 販促時売り上げ < 通常時売り上げ 販促したら、売り上げが減った このデータから何がわかるだろう?
データを扱う際の注意点