統計学I-1

137.4K Views

February 18, 23

スライド概要

2022年度統計学Iの講義資料です。

profile-image

好きな色は緑です。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

統計学 I-1 ・統計学の導入 ・記述統計 ・確率論 https://logics-of-blue.com/

2.

本資料について 本資料の成り立ち 馬場が担当する学部1年生向け統計学Iの講義資料抜粋 統計学を初めて学ぶ、文系の学生が受講する想定 本資料の取り扱い あくまでも、本来の講義資料の抜粋なので注意 (計算演習・講義内クイズ・前回講義の復習 口頭での説明内容等は省略) SNSなどでスライドのスクショを張り付けるのは、 避けてほしい (文脈がわからないと、誤った理解を促すため) 2

3.

本資料について 本資料の使い方 想定①:講義の受講者が復習に利用する 想定②:未受講者が統計学入門資料として利用する ※想定②の場合は、下記参考文献も参照すること 参考文献 馬場真哉,2022,翔泳社 『Pythonで学ぶあたらしい統計学の教科書 第2版』 倉田博史・星野崇宏,2009,新世社 『入門統計解析』 鈴木武・山田作太郎,1996,内田老鶴圃 『数理統計学』 3

4.

本資料の範囲 1.統計学とは 2.データの種類・データのまとめ方の基本 3.一次元データの整理 4.二次元データの整理 5.記述統計の応用 6.グラフの活用・前半のまとめ 7.中間テスト

5.

統計学 I 第1回:統計学とは 2022年04月18日(月)

6.

内容 1.自己紹介 2.講義の進め方 3.統計学では何を学ぶか

7.

自己紹介

8.

自己紹介 名前 馬場真哉 学生の頃の専門 水産学 前職 システムエンジニア フリーランス 現職 東京医科歯科大非常勤講師 岩手大客員准教授 帝京大学講師(1年生)

9.

本も書いています(2023年2月現在の書作) 1. 馬場真哉 (2022). Pythonで学ぶあたらしい統計学の教科書 第2版. 翔泳社. 【https://www.shoeisha.co.jp/book/detail/9784798171944】 2. 馬場真哉 (2021). 意思決定分析と予測の活用 基礎理論からPython実装まで. 講談社. 【https://www.kspub.co.jp/book/detail/5222270.html】 3. 馬場真哉 (2020). R言語ではじめるプログラミングとデータ分析. ソシム. https://www.socym.co.jp/book/1238】 4. 馬場真哉 (2019). RとStanではじめる ベイズ統計モデリングによるデータ分析入門. 講談社. 【https://www.kspub.co.jp/book/detail/5165362.html】 5. 馬場真哉 (2018). Pythonで学ぶあたらしい統計学の教科書. 翔泳社. 【https://www.shoeisha.co.jp/book/detail/9784798155067】 6. 馬場真哉 (2018). 時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装. プレアデス出版. 【http://www.pleiades-publishing.co.jp/pdf/pdf08.html】 7. 馬場真哉 (2015). 平均・分散から始める一般化線形モデル入門. プレアデス出版. 【http://www.pleiades-publishing.co.jp/pdf/pdf02.html】

10.

講義の進め方

11.

統計学では何を学ぶか

12.

内容 1.統計学について 2.記述統計について 3.推測統計について 4.確率論について

13.

統計学とは何か 統計学 データを収集、表示、解析する科学 Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 「統計学とは何か」に対する個人的な回答 データの“良い”使い方を学ぶための学問 なぜデータを利用するのだろう?

14.

データ活用事例① ナイチンゲールさんの統計活用

15.

統計学とは何か ナイチンゲール(人名) イタリアのフローレンス生まれ クリミア戦争中の看護師としての業績で知られる Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 参考:ナイチンゲールと統計(最終閲覧2022年1月17日) http://www.stat.go.jp/naruhodo/15_episode/episode/nightingale.html 「統計学辞典」にナイチンゲールの名前が

16.

統計学とは何か ナイチンゲールの業績 戦死者のデータを収集した そして「死亡原因」を集計した 画像省略 参考:ナイチンゲールと統計(最終閲覧2022年1月17日) http://www.stat.go.jp/naruhodo/15_episode/episode/nightingale.html

17.

統計学とは何か ナイチンゲールの業績 データから、死者が増える原因を調べた 怪我による死亡 < 感染症による死亡 参考:ナイチンゲールと統計(最終閲覧2022年1月17日) http://www.stat.go.jp/naruhodo/15_episode/episode/nightingale.html 怪我をした後、感染症が広がらないように 病院の衛生状態を改善 →死者の数が激減

18.

データ活用事例② 電車の駅ホームにおける椅子の向きについて

19.

統計学とは何か データ活用の事例:駅ホームのベンチの向き データから、線路に転落する理由を調べた 酔っぱらった人が、椅子から立ち上がった時 線路へ向かって転落している!? 参考:乗り物ニュース(最終閲覧2022年1月17日) 駅ホームのベンチ「向き変更」広がる 関西発祥の安全対策、関東でも拡大 https://trafficnews.jp/post/84818

20.

統計学とは何か データ活用の事例:駅ホームのベンチの向き 線路 駅ホーム 椅子が線路向き →落ちやすい ベンチ

21.

統計学とは何か データ活用の事例:駅ホームのベンチの向き 線路 駅ホーム ベンチ 椅子が線路と直角 →落ちにくい!!

22.

統計学とは何か データ活用の事例:駅ホームのベンチの向き データから、線路に転落する理由を調べた 酔っぱらった人が、椅子から立ち上がった時 線路へ向かって転落している! →椅子の向きを変えてみよう! ……でも、本当に効果があるのかな?? →効果があるか、データを使って確かめよう! データを集め、分析することで、 少ない費用で、大きな成果が得られるかも (人間の命に関わる改善になるかも)

23.

統計学とは何か 統計学の使い道(例) 売れている商品と、売れていない商品を比較 →売れている理由を見つけて、売り上げを伸ばす 絶滅の危機にある生物が たくさんいる場所と、いない場所を比較 →生物が生息できる条件を調べて、保護に活かす データを使って、社会を改善。仕事に活用

24.

統計学とは何か 統計学は便利♪ データを分析すると…… 死者を減らせる(だろう) 売り上げを伸ばせる(だろう) データを中途半端に利用すると、 手痛い失敗をするかもしれない

25.

統計学とは何か 1.データを分析することで、 社会を良くできるかもしれない 2.データ分析のやり方を間違えると、 逆に損をするかもしれない データ活用のメリット・注意点を両方学ぶ

26.

内容 1.統計学について 2.記述統計について 3.推測統計について 4.確率論について

27.

記述統計について 目的: 手持ちのデータの集計・整理 例)データの平均値を使う 複数の数値(データ) 4 3 4+3 平均値 = = 3.5 2

28.

記述統計について たくさんの数値(データ) 4.5 3.2 7.4 15.6 1.8 12.4 2.8 6.3 9.0 10.1 少しの集計値 平均:7.3 集計すると結果が見やすい

29.

集計のメリット・デメリット メリット データの比較や解釈が簡単になる デメリット 単一の集計値だけだと、情報が大きく減る 恣意的に、解釈をゆがめることができる

30.

集計のメリット・デメリット 学生の貯金額を調べて 金銭的補助の必要性を把握しよう 貯金額 Aさん Bさん Cさん Dさん 1000万 0円 0円 0円 貯金額の平均値 1000 + 0 + 0 + 0 = 250 4 貯金250万もあるから補助はいらないね!

31.

集計のメリット・デメリット 学生の貯金額を調べて 金銭的補助の必要性を把握しよう 貯金額 Aさん Bさん Cさん Dさん 1000万 0円 0円 0円 一人を除き、学生は全員、貯金が0円!! 平均値だけを見て判断してはいけない

32.

記述統計 記述統計の大きなテーマ なるべく情報量を減らさないで 比較・解釈を簡単にする集計方法を探る ● 平均以外の、複数の集計値を併記する ● グラフの活用 →前期の前半(中間テストまで)で扱う

33.

内容 1.統計学について 2.記述統計について 3.推測統計について 4.確率論について

34.

推測統計 目的:まだ手に入れていない未知データの推測・予測 わざわざ未知のデータに言及する意義は?

35.

推測統計 推測統計がない時(未知のデータに対して言及しない) 今日の夜まで 広告を出すことで、売り上げが増えました でも・・・ 明日からは 広告を出すことで売り上げが増えるか減るか不明です 何のためのデータ分析?

36.

推測統計 推測統計がない時(未知のデータに対して言及しない) 手持ちのデータ 今日の夜まで 広告を出すことで、売り上げが増えました まだ持っていない未知のデータ 明日からは 広告を出すことで売り上げが増えるか減るか不明です データに基づく判断のために、 未知のデータへ言及をする

37.

推測統計 推測統計がある時(未知のデータに対して言及する) 今日の夜まで 広告を出すことで、売り上げが増えました だから 明日からも 広告を出すことで売り上げが増えるはずです ★売り上げUPのために広告を出そう!!! この流れこそが「データに基づく判断」

38.

推測統計 データの集計 今日の夜まで、広告を出すことで、売り上げが増えた データに基づく判断 明日からも、広告を出すことで売り上げが増えるはず データに基づく意思決定 明日からも広告を出すべきだ 未知のデータに対して推測・予測を行い データを活用した意思決定につなげる

39.

推測統計 推測統計の大きなテーマ 未知データに対する推測 未知データも対象とした判断 ● 区間推定の活用 ● 統計的仮説検定の活用 →主に後期の内容

40.

内容 1.統計学について 2.記述統計について 3.推測統計について 4.確率論について

41.

確率論について データを分析するのに、なぜ確率が必要か? 統計学の教科書では、思い出したように(?) 確率論がいきなり現れる →前期の後半(中間テスト以降)は確率論 確率論が、なぜ、どのようにして使われるのか、 データを分析するのに、なぜ確率を学ぶ必要があるのか、 推測統計の基本的な考え方と合わせて説明

42.

データに基づく判断・意思決定のために 【記述統計】手持ちのデータの集計 【推測統計】未知のデータに対する判断・推測 推測統計を理解するためには、確率の知識が必要 ・・・・・・なぜ?

43.

内容 1.ガチャの事例 2.湖調査の事例

44.

内容 1.ガチャの事例 2.湖調査の事例

45.

確率論を学ぶ意義 ダメそうな推論の仕方 スマホゲームで10連ガチャを回しても、当たりが出ない ↓ このガチャは、当たりが一人も入ってない。不正だ!! 根拠のないクレームでは?

46.

確率論を学ぶ意義 ダメそうな推論の流れ Step1.データ取得:10連ガチャを回す 結果:当たりキャラが出ない ↓ Step2.未知のデータに対する推測 このガチャでは、当たりキャラ出現率が0%である! ↓ Step3.予測 誰が回しても、ガチャで当たりなんか出ないよ!!! この推測・予測は明らかに間違い 確率的に、当たったり外れたりするはず

47.

確率論を学ぶ意義 確率論で学ぶこと 問い: SSRの当たり率が2%(0.02)のガチャを100回実行した時 当たりが1回も出ない確率は? ① 1%未満 ④ 11~15% ② 1~5% ③ 6~10% ⑤ 16~20% 答え: およそ13%なので④が正解 確率的に変化する結果について 理解を深める

48.

確率論を学ぶ意義 もしかして、本当に不正ガチャかも? 問い:(SSRの当たり率は2%) 1000回やっても当たりが出ない。 1000回実行して当たりが1回も出ない確率は? ① 1%未満 ④ 11~15% ② 1~5% ③ 6~10% ⑤ 16~20% 答え: ほぼ0%なので①が正解 ガチャ不正の根拠にするためには、 何回ガチャを回す必要があるだろう?

49.

内容 1.ガチャの事例 2.湖調査の事例

50.

推測統計の使い道 すべての魚(およそ1億尾) 湖にいる魚の体長を調べたい しかし全ての魚の体長を調べるのは無理 50

51.

推測統計の使い道 500尾くらいなら、 体長を調べられそう 51

52.

推測統計のテーマ 湖の中のすべての魚の体長 母集団 すべてのデータ 未知のデータを含む 標本 母集団の一部 手に入ったデータ 釣りをして得られた魚の体長 標本を使って、母集団について議論する 手持ちのデータで未知データの議論をする

53.

確率はどこで登場するか たまたま 「中くらいのサイズ」 の魚が釣れた 53

54.

確率はどこで登場するか たまたま 「小さめのサイズ」 の魚が釣れた 54

55.

確率はどこで登場するか たまたま 「大きめのサイズ」 の魚が釣れた 55

56.

確率はどこで登場するか ランダムに一部の魚を標本として抽出 ここで確率が登場する 56

57.

確率はどこで登場するか 同じ母集団から標本を抽出しても、毎回違う結果になる 平均3cm 平均7cm 確率的に結果が変わる! 確率的に、標本の体長の平均値が 大きくなったり小さくなったりする

58.

確率論を学ぶ意義 確率論を学ぶ理由① 後期で学ぶ推測統計の基礎となるから →推測統計を理解するためには、確率論の理解が必須 確率論を学ぶ理由② 確率論そのものも、ビジネスで活用できる →誤った解釈をしないように 確率論を扱ったビジネス書も多く出版されている (基本的には、講義指定の教科書が1冊あれば十分)

59.

推測統計と確率論の関わり 推測統計では確率論の理解が必要 標本(データ)は、確率的に得られるから 推測統計学の用語(詳しくは後期で解説) 母集団 未知データを含む、対象全体 標本 母集団の一部。手に入るデータはこれだけ

60.

まとめ メモ 統計学とは データを収集、表示、解析する科学 Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 以下の2つに分けられる 記述統計 なるべく情報量を減らさないで 比較・解釈を簡単にする集計方法を探る 推測統計 全体の一部である標本だけを使って、 まだ手に入れていない未知データの推測・予測をする (確率論の理解が必須)

61.

今後の講義(予定):記述統計 1.統計学とは(本日) 2.データの種類・データのまとめ方の基本 3.一次元データの整理 4.二次元データの整理 5.記述統計の応用 6.グラフの活用・前半のまとめ 7.中間テスト

62.

今後の講義(予定):確率論 8.確率論の基礎1 9.確率論の基礎2 10.確率分布の基礎1 11.確率分布の基礎2 12.代表的な確率分布 13.多次元確率分布の基礎 14.独立同一分布に従う確率変数 15.期末テスト

63.

データを扱う際の注意点 ちょっとした頭の体操

64.

データを扱う際の注意点 あるお店のデータ(本物のデータではない) 商品の販促(販売促進の略語。例えば宣伝とか)を した時・しなかった時で、売り上げのデータを比較した 販促時売り上げ < 通常時売り上げ 販促したら、売り上げが減った このデータから何がわかるだろう?

65.

データを扱う際の注意点 「販促したら売り上げが減った」というデータの取り扱い 問い: 販促をしたら売り上げが減ったというデータを見て、 次にどのような施策を打つべきだろうか ① 販促はしないべき ② 販促するべき ③ 判断できない データが得られても、その解釈には 慎重さが求められる

66.

データを扱う際の注意点 「販促したら売り上げが減った」というデータの取り扱い よくあるパターン 店員さん 雨が降ったからお店の売り上げが減りそう…… 雨の日でも商品を買ってもらえるように、 販促をしよう! 雨の日(売り上げが下がる日)にだけ、 販促をしていたらしい

67.

データを扱う際の注意点 「販促したら売り上げが減った」というデータの取り扱い 仮想の売上データ 20 15 15 10 8 10 5 5 0 晴 販促あり 雨 販促なし

68.

データを扱う際の注意点 天気が同じなら、 「販促したら売り上げが減った」というデータの取り扱い 販促すると売り上げがUP 仮想の売上データ 20 15 15 10 8 10 5 5 0 晴 販促あり 雨 販促なし

69.

データを扱う際の注意点 「晴」のときの「販促なし」と 「雨」のときの「販促あり」だと、 「販促したら売り上げが減った」というデータの取り扱い 「販促なし」の方が売り上げが高くなる 仮想の売上データ 15 20 15 10 8 10 5 5 0 晴 販促あり 雨 販促なし

70.

データを扱う際の注意点 「販促したら売り上げが減った」というデータの取り扱い 問い: 販促をしたら売り上げが減ったというデータを見て、 次にどのような施策を打つべきだろうか データは、物事を判断するときに便利 しかし、データではわからないこともある データを疑うこともまた、とても大事

71.

データを扱う際の注意点 困ったときの処方箋 ①現場の人の話を聞いてみる(とても大事) いや~、雨のときにばかり販促してるんだよね~ ②追加でデータを集めてみる 売り上げが下がったのは偶然かも? →データを増やせば結果が変わるかもしれない →しかし、先ほどのような事例だと、効果は薄い 異なるタイプのデータを集めてみる →例えば、天気別でデータを集めるなど →視点を変えてみるのは大事

72.

統計学 I 第2回:データの種類 データのまとめ方の基本

73.

内容 1.データの分類 2.度数分布 3.ヒストグラム 73

74.

データの分類 74

75.

内容 1.データについて 2.データの分類 3.様々な尺度 4.その他の分類方法 75

76.

内容 1.データについて 2.データの分類 3.様々な尺度 4.その他の分類方法 76

77.

データの分類 観測・変数 観測:調査などによって観測された個別の対象 変数:観測対象となった性質・調査項目 魚の種類 A A B B 体長(cm) 2 4 8 9 77

78.

データの分類 観測・変数 観測:調査などによって観測された個別の対象 変数:観測対象となった性質・調査項目 観測 (今回は4つの観測) 魚の種類 A A B B 体長(cm) 2 4 8 9 78

79.

データの分類 観測・変数 観測:調査などによって観測された個別の対象 変数:観測対象となった性質・調査項目 変数 (今回は2つの変数) 魚の種類 A A B B 体長(cm) 2 4 8 9 79

80.

内容 1.データについて 2.データの分類 3.様々な尺度 4.その他の分類方法 80

81.

データの分類 データの分類の概要 離散型 数量データ 連続型 データ 二値データ カテゴリーデータ 多値データ 81

82.

データの分類 まずはこの分類から データの分類の概要 離散型 数量データ 連続型 データ 二値データ カテゴリーデータ 多値データ 82

83.

データの分類 ○ 定量的・定量的でない × 数値・数値でない 数量データ(量的データ・量的変数) 定量的である(計測できる)データ 数値の差が等間隔であるデータ 例) 魚の体長・金額・気温・テストの点数 カテゴリーデータ(質的データ・質的変数) 定量的でない(計測できない)データ 例) 魚の種類・学部・学科・成績(S~D) 83

84.

データの分類 数量データとカテゴリーデータの紛らわしい事例 (1)大 (2)中 (3)小 20cm 10cm 5cm 10cm差 5cm差 数値の「差」の間隔が等しくない (1)大・(2)中・(3)小はカテゴリーデータ 84

85.

データの分類 数量データとカテゴリーデータの紛らわしい事例 見た目は数値だがカテゴリーデータというのはよくある 例) 英検の級 1級 大学上級 2級 高校卒業 3級 中学卒業 4級 中学中級 両方とも中学レベル 4→3級は簡単。2→1級は大変 85

86.

データの分類 次はこの分類 データの分類の概要 離散型 数量データ 連続型 データ 二値データ カテゴリーデータ 多値データ 86

87.

数量データの分類 定量的なデータ=数量データ 離散型の変数:飛び飛びの値 魚の釣獲尾数:0尾、1尾、2尾(0か正の整数のみ) 商品が売れた個数:0個、1個、2個 連続型の変数:連続した値 魚の体長:20cm、19.8524cm(いくらでも細かくできる) 金額(万円)などは1円区切りだが、 計算の簡単のため、連続データとみなすことも多い 87

88.

カテゴリーデータの分類 定量的でないデータ=カテゴリーデータ 2値データ:2種類のカテゴリーしかない 魚の性別:オス・メス 契約の成否:契約成立・契約不成立 購入の有無:買った・買わない 多値データ:3以上の種類をとる 魚の種類:メダカ・キンギョ・クロマグロ 顧客属性:企業の正社員・フリーランス・学生 英検の級:1級・2級・3級・4級 88

89.

データの分類 定量的・定量的でない (数値の差が等間隔・等間隔でない) データの分類の概要 離散型 数量データ 連続型 データ 二値データ カテゴリーデータ 多値データ メモ 大きめのノートにメモして 後で事例を追記するのがおすすめ 89

90.

内容 1.データについて 2.データの分類 3.様々な尺度 「連続・離散」や「2値・多値」とは異なる観点から、 カテゴリーデータ・数量データをさらに分類 90

91.

様々な尺度 数量データとカテゴリーデータの紛らわしい事例 例) 英検の級はカテゴリーデータ 1級 大学上級 2級 高校卒業 3級 中学卒業 4級 中学中級 両方とも中学レベル 理屈はわかるが、 普通(?)のカテゴリーと分けたい気がする 91

92.

様々な尺度 定量的でないデータ=カテゴリーデータ 名義尺度:単なるカテゴリー 魚の性別:オス・メス 顧客属性:企業の正社員・フリーランス・学生 順序尺度:順序があるカテゴリー 魚の大きさランク:大・中・小 英検の級:1級・2級・3級・4級 92

93.

様々な尺度 数量データをさらに2つに分ける 例)気温は比率に意味を見出しにくい 気温1度 → 気温2度 2倍暑くなった……か? 正直、どっちも同じくらい寒い 93

94.

様々な尺度 定量的なデータ=数量データ 間隔尺度:比率に意味を持たない 摂氏で測った気温 西暦(西暦1年が2年になっても、 「2倍の西暦」とは言わない) 比例尺度:比率が意味を持つ 魚の体長(1cmの魚が成長して2cmになったら 「2倍の大きさになった」と言える) 経過時間(大学の授業90分は、高校生の授業45分の倍) 94

95.

様々な尺度 様々な尺度 メモ 大きめのノートにメモして 後で事例を追記するのがおすすめ 名義尺度 カテゴリーデータ 順序尺度 間隔尺度 数量データ 順序がある (間隔は普通、等しくない) (間隔は等しいが) 比率に意味を持たない 比例尺度 95

96.

内容 1.データについて 2.データの分類 3.様々な尺度 4.その他の分類方法 96

97.

その他の分類方法 1変量データ(1次元データ) 1つの変数だけからなるデータ 多変量データ(多次元データ) 2つ以上の変数からなるデータ 97

98.

その他の分類方法 時系列データ 異なる時点で得られたデータ 「並び順」に意味があるのが特徴 例) 月別売上データ →1月の売り上げ、2月の売り上げ、3月の売り上げ…… クロスセクションデータ 異なる対象から得られたデータ 例) 2020年1月における、自社店舗100店の売り上げ 98

99.

その他の分類方法 メモ 変数の種類による分類 1変量データ :1つの変数からなるデータ 多変量データ :複数の変数からなるデータ データの取得状況による分類 時系列データ :異なる時点で得られたデータ クロスセクションデータ:異なる対象から得られたデータ 99

100.

度数分布 100

101.

内容 1.度数・度数分布 2.度数分布の便利なところ 3.数量データにおける度数分布の工夫 4.いろいろな度数分布 101

102.

内容 1.度数・度数分布 2.度数分布の便利なところ 3.数量データにおける度数分布の工夫 4.いろいろな度数分布 102

103.

度数分布 度数 ある属性に属するデータの数のこと 度数分布 属性と度数を対応させたもの 度数分布表 度数分布を表にしたもの どんなデータが、何個あったかを数える 103

104.

度数分布 度数分布表の例:受講者の学科の構成 25人へのアンケート結果(生データ) 経済学科・経済学科・経済学科・経済学科・経済学科 経済学科・経済学科・経済学科・経済学科・経済学科 国際経済学科・国際経済学科・国際経済学科・国際経済学科・国際経済学科 経営学科・経営学科・経営学科・経営学科・経営学科・経営学科・経営学科 観光経営学科・観光経営学科・観光経営学科 度数分布表 属性(学科) 度数 経済学科 10 国際経済学科 5 経営学科 7 観光経営学科 3

105.

度数分布 度数分布表の例: 受講者の学科の構成 合計:25人 属性(学科) 度数 経済学科 10 国際経済学科 5 経営学科 7 観光経営学科 3 合計:25人 度数分布表の例: 受講者の年齢構成 属性(年齢) 度数 18歳 16 19歳 7 20歳 21歳 1 1

106.

内容 1.度数・度数分布 2.度数分布の便利なところ 3.数量データにおける度数分布の工夫 4.いろいろな度数分布 106

107.

度数分布 学生の貯金額を調べて 金銭的補助の必要性を把握しよう 貯金額 Aさん Bさん Cさん Dさん 1000万 0円 0円 0円 貯金額の平均値 𝟏𝟎𝟎𝟎 + 𝟎 + 𝟎 + 𝟎 = 𝟐𝟓𝟎 𝟒 貯金250万もあるから、補助はいらないね! 107

108.

度数分布 学生の貯金額を調べて 金銭的補助の必要性を把握しよう 貯金額 Aさん Bさん Cさん Dさん 1000万 0円 0円 0円 一人を除き、学生は全員、貯金が0円!! 平均値だけを見て判断してはいけない 108

109.

度数分布 度数分布表の例: 貯金額の構成 合計:4人 属性(貯金 額) 1000万円 0円 度数 1 3 平均値よりも、 度数分布表を重要視するのがお勧め 実際の仕事でも、度数分布は大事! 経済的補助が必要な学生の人数が 即座にわかる 109

110.

内容 1.度数・度数分布 2.度数分布の便利なところ 3.数量データにおける度数分布の工夫 4.いろいろな度数分布 110

111.

合計:25人 度数分布 度数分布表の例: 身長の構成 ・表が長すぎる ・見難い ・データの特徴が 分かり難い 属性(身長) 度数 155.1㎝ 155.2㎝ 155.3㎝ 1 0 0 155.4㎝ 155.5㎝ 155.6㎝ 1 0 0 155.7㎝ 155.8㎝ 155.9㎝ 1 1 0 156.0㎝ 0 156.1㎝ 1 190㎝まで続く・・・・・・ (以下略)

112.

度数分布 階級 数値をある範囲で区切ったもの 階級値 階級を代表する値(後述) 階級下限・階級上限・階級幅 階級の下限・上限とその範囲 「どの範囲のデータ」が、何個あったか 112

113.

度数分布 度数分布表の例: 身長の構成 合計:25人 階級 155~164.9㎝ 165~174.9㎝ 175~184.9㎝ 185~194.9㎝ 階級として範囲を区切ると とても見やすい 度数 5 12 6 2

114.

度数分布 階級に関する用語の補足 階級を代表する値 階級 155~164.9㎝ 165~174.9㎝ 175~184.9㎝ 185~194.9㎝ 階級値 160㎝ 170㎝ 180㎝ 190㎝ 階級下限 155㎝ 165㎝ 175㎝ 185㎝ 階級上限 164.9㎝ 174.9㎝ 184.9㎝ 194.9㎝

115.

内容 1.度数・度数分布 2.度数分布の便利なところ 3.数量データにおける度数分布の工夫 4.いろいろな度数分布 115

116.

度数分布 相対度数 度数の、全データに占める割合 合計:25人 階級 度数 相対度数 155~164.9㎝ 5 165~174.9㎝ 12 175~184.9㎝ 6 5 ÷ 25 = 0.2 12 ÷ 25 = 0.48 6 ÷ 25 = 0.24 185~194.9㎝ 2 2 ÷ 25 = 0.08 116

117.

度数分布 累積度数 度数の累積値。ある階級までの度数を足し合わせる 合計:25人 階級 度数 累積度数 155~164.9㎝ 5 165~174.9㎝ 12 175~184.9㎝ 6 5 5 + 12 = 17 5 + 12 + 6 = 23 185~194.9㎝ 2 5 + 12 + 6 + 2 = 25 117

118.

度数分布 累積相対度数 相対度数の累積値 合計:25人 階級 度数 155~164.9㎝ 5 相対度数 5 ÷ 25 = 0.2 累積相対度数 0.2 165~174.9㎝ 12 12 ÷ 25 = 0.48 0.2 + 0.48 = 0.68 175~184.9㎝ 6 6 ÷ 25 = 0.24 0.2 + 0.48 + 0.24 = 0.92 185~194.9㎝ 2 2 ÷ 25 = 0.08 0.2 + 0.48 + 0.24 + 0.08 = 1 185cmより小さい人が92%を占める →「ある値より小さい割合」がわかる

119.

度数分布 学生の貯金額を調べて 金銭的補助の必要性を把握しよう 学生の貯金額の度数分布表を作る ↓ 累積相対度数分布表を作る ↓ 貯金が「ある値」を下回っている割合を調べる 貯金額の分布に合わせて、補助しよう 119

120.

度数分布 製品の売れ行きを調べて、 効率的に在庫管理を行おう 製品の発売数の度数分布表を作る ↓ 累積相対度数分布表を作る ↓ 発売数が多い、上位10製品で、全体の何割を占めるだろうか 「特定の製品」だけが売れているのか、 「まんべんなく」売れているのかを調べる 120

121.

度数分布 メモ 度数・度数分布・度数分布表 ある属性に属するデータの数のこと。 属性と度数の対応(度数分布)は、度数分布表にする 階級・階級値 数値をある範囲で区切ったもの。 階級を代表する値を階級値と呼ぶ 相対度数 度数の、全データに占める割合 累積度数 度数の累積値 累積相対度数 相対度数の累積値 121

122.

ヒストグラム ヒストグラムは、データ分析の 強力なツール(頻繁に使う) 122

123.

ヒストグラム ヒストグラム 度数分布を棒グラフで表したもの 階級 155~164.9㎝ 165~174.9㎝ 175~184.9㎝ 185~194.9㎝ 度数 5 12 6 2

124.

ヒストグラム ここから、少し応用的な内容 ヒストグラムの面積が持つ意味についてこれから解説 124

125.

階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08

126.

階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08 相対度数分布と、桁が1つずれているが、 これが正しい

127.

階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08 この棒に着目

128.

ヒストグラム ヒストグラムと相対度数 ヒストグラムの面積が 相対度数を表す 横幅10 階級 度数 相対度数 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 175~184.9㎝ 6 0.24 185~194.9㎝ 2 0.08 棒の面積は0.2であり、 相対度数と一致する 高さ 0.02 128

129.

階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08 (階級幅を変化させた) 175~195で、階級幅が広い ただし、相対度数を足し合わ せてはいけない 高さ 0.016

130.

階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08 (階級幅を変化させた) 棒の面積は0.24 + 0.08 = 0.32であり、 相対度数の和と一致する 横幅20(175~195) 高さ 0.016

131.

ヒストグラム メモ ヒストグラム 度数分布をグラフで表したもの →ヒストグラムの面積が度数と比例する ヒストグラムと相対度数分布の関係 ヒストグラムの「面積」を、 相対度数分布と対応させる図をしばしば利用する →縦軸は、度数でも、相対度数でもない! →「面積」が相対度数

132.

統計学 I 第3回:一次元データの整理

133.

内容 1.算術記号の読み方 2.様々な統計量 133

134.

データの分類方法(復習) 1変量データ(1次元データ) 1つの変数だけからなるデータ ←今日やる 多変量データ(多次元データ) 2つ以上の変数からなるデータ 魚の体長”だけ”や、貯金額”だけ”など 1変量データを対象とした統計量の紹介 134

135.

算術記号の読み方 135

136.

算術記号の読み方 ここでの目標 𝑥や𝑦が登場する数式を見てもびっくりしない 𝑛 平均値 1 𝑥ҧ = ෍ 𝑥𝑖 𝑛 𝑖=1 数式無しで統計学を勉強するのは不可能 数式を読めるようになることは必須技能 136

137.

算術記号の読み方 ここでの目標 𝑥や𝑦が登場する数式を見てもびっくりしない ↓ 数式を「読める」ようになる 証明などは基本的に省略する でも、数式を読めるようになってほしい 137

138.

算術記号の読み方 1.変数と𝑥 2.足し算と σ (シグマ)記号 138

139.

算術記号の読み方 1.変数と𝑥 2.足し算と σ (シグマ)記号 139

140.

算術記号の読み方 データの表記 𝑖番目の観測値を𝑥𝑖 と表記する 数学初心者のための補足① なぜ「𝑥」というアルファベットを使う? 特に理由はない。別に𝑦を使ってもOK →多変量データ編では、 複数の変数を区別するため𝑥, 𝑦の両方を使う 中学校の一次関数などでも𝑥や𝑦という 記号が多く使われるので、とりあえず𝑥 140

141.

算術記号の読み方 データの表記 𝑖番目の観測値を𝑥𝑖 と表記する 数学初心者のための補足② 𝑖番目の「𝑖」ってなに? Indexの頭文字の「𝑖」 1番目の観測値なら𝑖 = 1 2番目の観測値なら𝑖 = 2 39番目の観測値なら𝑖 = 39 「5」番目など特定の数値を指定したくない →「何番目かの観測値」が𝑥𝑖 141

142.

算術記号の読み方 データの表記 𝑖番目の観測値を𝑥𝑖 と表記する 観測・変数(復習) 観測:調査などによって観測された個別の対象 変数:観測対象となった性質・調査項目 体長(cm) 2 4 8 9 観測 (今回は4つの観測) 142

143.

算術記号の読み方 データの表記 𝑖番目の観測値を𝑥𝑖 と表記する 観測・変数(復習) 観測:調査などによって観測された個別の対象 変数:観測対象となった性質・調査項目 体長(cm) 2 4 8 9 𝑥1 = 2 𝑥2 = 4 𝑥3 = 8 𝑥4 = 9 143

144.

算術記号の読み方 データの表記 𝑖番目の観測値を𝑥𝑖 と表記する 数学初心者のための補足③ 普通に数値を使えばいいじゃん。なぜ𝑥𝑖 を使うの? 観測値が1万個あった場合、 その数値をすべて列挙するのは面倒。 →「抽象的に」対象を扱う 𝑥𝑖 , 𝑖 = 1,2,3,4, … , 9998,9999,10000 特定の観測値(大きさは3㎝)ではなく、 観測値一般を対象にした議論をしたい 144

145.

算術記号の読み方 1.変数と𝑥 2.足し算と σ (シグマ)記号 145

146.

算術記号の読み方 データの合計値 𝑖番目の観測値を𝑥𝑖 と表記する 𝑖 = 1,2,3,4,5(観測値は5個ある) 5 合計値 = ෍ 𝑥𝑖 𝑖=1 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 インデックス𝑖を1から5まで変化させて、 全ての観測値を合計する 146

147.

算術記号の読み方 データの合計値 𝑖番目の観測値を𝑥𝑖 と表記する 𝑖 = 1,2,3,4,5(観測値は5個ある) 5 合計値 = ෍ 𝑥𝑖 𝑖=1 スタート = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 インデックス𝑖を1から5まで変化させて、 全ての観測値を合計する 147

148.

算術記号の読み方 データの合計値 𝑖番目の観測値を𝑥𝑖 と表記する 𝑖 = 1,2,3,4,5(観測値は5個ある) 5 合計値 = ෍ 𝑥𝑖 𝑖=1 終了位置 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 インデックス𝑖を1から5まで変化させて、 全ての観測値を合計する 148

149.

算術記号の読み方 データの合計値(一般的な書き方) 𝑖番目の観測値を𝑥𝑖 と表記する 𝑖 = 1,2, … , 𝑛 (観測値は𝑛個ある) 𝑛 合計値 = ෍ 𝑥𝑖 𝑖=1 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 インデックス𝑖を1から𝑛まで変化させて、 全ての観測値を合計する 149

150.

算術記号の読み方 データの合計値(一般的な書き方) 𝑖番目の観測値を𝑥𝑖 と表記する 𝑖 = 1,2, … , 𝑛 (観測値は𝑛個ある) 体長(cm) 2 4 8 9 𝑥1 = 2 𝑥2 = 4 𝑥3 = 8 𝑥4 = 9 観測値は4つなので 𝑛=4 4 合計値 = ෍ 𝑥𝑖 𝑖=1 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 2 + 4 + 8 + 9 = 23 150

151.

様々な統計量 ①代表値 151

152.

様々な統計量 統計量・代表値 データの特徴を把握するのに便利な指標を統計量と呼ぶ 統計量はデータから計算される →記述統計では代表値という言葉も多く使われる データを代表する指標というニュアンス →厳密には「データを入力して、指標を出力する関数」を 統計量と呼ぶ(データの中身が変わるから) データ 指標 152

153.

様々な統計量 統計量・代表値 「データを入力して、指標を出力する関数」が統計量 これは間違い 平均値を計算したら3だった 「3」という数値をこれから平均と呼ぼう! 平均値を計算する計算式が大切 データ 指標 153

154.

様々な統計量 代表値 たくさんのデータを代表する値 →データの分布の中心 ばらつきの指標 データの分布の中心から、 個別のデータがどれほど離れているか 154

155.

様々な統計量 そもそも分布って? データの「分布」のイメージをしっかりつかもう 動物の分布 身長データの分布 ・キリン →アフリカに存在 データの多くは 170㎝前後に存在している ・キタキツネ →北海道に存在 160㎝前後と190㎝前後では、 160㎝前後の方が 多くのデータが存在している ・コウテイペンギン →南極に存在 155

156.

ヒストグラム ヒストグラム(復習) 度数分布を棒グラフで表したもの 分布を可視化したグラフと言える 階級 度数 155~164.9㎝ 5 165~174.9㎝ 12 175~184.9㎝ 6 185~194.9㎝ 2

157.

様々な統計量 1.平均値(算術平均) 2.中央値 3.最頻値 4.代表値の比較 157

158.

様々な統計量 1.平均値(算術平均) 2.中央値 3.最頻値 4.代表値の比較 158

159.

様々な統計量 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 𝑥ҧ = ෍ 𝑥𝑖 𝑛 𝑖=1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = 𝑛 平均値は伝統的に「バー(横棒)」をつける 𝑥𝑖 の平均値は𝑥ҧ 159

160.

様々な統計量 1.平均値(算術平均) 2.中央値 3.最頻値 4.代表値の比較 160

161.

様々な統計量 データ 𝑥𝑖 順序データ 小さいものから順番に並び替えたデータ 中央値 順序データの中央に当たる数値 ただし 𝑖 = 1,2, … , 𝑛 中央値は、データを小さい順に並び替えて ちょうど中央にあたる数値のこと 161

162.

様々な統計量 1.平均値(算術平均) 2.中央値 3.最頻値 4.代表値の比較 162

163.

ヒストグラム ヒストグラム(復習) 度数分布を棒グラフで表したもの 階級 度数 155~164.9㎝ 5 165~174.9㎝ 12 175~184.9㎝ 6 185~194.9㎝ 2

164.

ヒストグラム ヒストグラム(復習) 度数分布を棒グラフで表したもの 階級 度数 155~164.9㎝ 5 165~174.9㎝ 12 175~184.9㎝ 6 185~194.9㎝ 2 最頻値 度数が最も大きい 階級値

165.

様々な統計量 1.平均値(算術平均) 2.中央値 3.最頻値 4.代表値の比較 165

166.

様々な統計量 データ 平均値 中央値 {1,2,3,4,5} 1+2+3+4+5 =3 5 {1,2,3,4,5} 中央の値「3」が中央値 今回のデータでは、平均値・中央値が一致 166

167.

クイズ 平均値と中央値 問い: 下記のデータの平均値と中央値を答えよ データ {1,2,3,4,100} ① 平均値:3 中央値:3 ② 平均値:22 中央値:22 ③ 平均値:3 中央値:22 ④ 平均値:22 中央値:3

168.

様々な統計量 データ 平均値 中央値 {1,2,3,4,100} 1 + 2 + 3 + 4 + 100 = 22 5 {1,2,3,4,100} 中央の値「3」が中央値 中央値の方が、歪みに強い 168

169.

様々な統計量 外れ値・異常値 他と大きく異なる極端なデータ データ {1,2,3,4,100} 外れ値 中央値 {1,2,3,4,100} 中央の値「3」が中央値 中央値は外れ値に頑健 169

170.

総務省統計局、家計調査報告(貯蓄・負債編) -2020年(令和2年)平均結果-(二人以上の世帯)より 「I 貯蓄の状況」より引用<https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/2020_gai2.pdf> 170

171.

貯金100万円未満 総務省統計局、家計調査報告(貯蓄・負債編) -2020年(令和2年)平均結果-(二人以上の世帯)より 「I 貯蓄の状況」より引用<https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/2020_gai2.pdf> 貯金4000万以上の 大金持ち 171

172.

総務省統計局、家計調査報告(貯蓄・負債編) -2020年(令和2年)平均結果-(二人以上の世帯)より 「I 貯蓄の状況」より引用<https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/2020_gai2.pdf> 平均値は1700万超 172

173.

総務省統計局、家計調査報告(貯蓄・負債編) -2020年(令和2年)平均結果-(二人以上の世帯)より 「I 貯蓄の状況」より引用<https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/2020_gai2.pdf> 中央値は1061万 173

174.

最頻値は 総務省統計局、家計調査報告(貯蓄・負債編) 貯金100万円未満 -2020年(令和2年)平均結果-(二人以上の世帯)より 「I 貯蓄の状況」より引用<https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/2020_gai2.pdf> 174

175.

様々な統計量 『二人以上の世帯について貯蓄現在高階級別の世帯分布をみると, 貯蓄現在高の平均値(1791万円)を下回る世帯が67.2%(前年67.9%)と 約3分の2を占めており, 貯蓄現在高の低い階級に偏った分布となっている。 』 総務省統計局、家計調査報告(貯蓄・負債編) -2020年(令和2年)平均結果-(二人以上の世帯)より 「I 貯蓄の状況」より引用<https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/2020_gai2.pdf> 平均的な貯金額を持っている人は 上位3分の1のお金持ち 175

176.

様々な統計量 ②ばらつきの指標 176

177.

売り上げ(万円) 代表値の問題点 1000 平均 500万 平均 500万 500 0 代表値からデータが離れているか否か、 判別できる指標がほしい→ばらつきの指標 177

178.

ばらつきの指標 1.分散 2.標準偏差 3.四分位点・最大・最小 178

179.

ばらつきの指標 1.分散 2.標準偏差 3.四分位点・最大・最小 179

180.

ばらつきの指標 分散 データが「平均値からどれほど離れているか」 を表す指標 売り上げ(万円) 分散大 分散小 1000 500 0 180

181.

様々な統計量 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 𝑠2 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑛 2 個別のデータ𝑥𝑖 と平均値𝑥が離れていたら ҧ 分散は大きな値をとる 181

182.

ばらつきの指標 データ {1,2,3,4,5} 1+2+3+4+5 =3 5 平均値 個別のデータが、 平均値からどれほど離れているか計算 分散 1−3 2 + 2−3 2 4+1+0+1+4 = 5 =2 + 3−3 5 2 + 4−3 2 + 5−3 2 182

183.

クイズ 分散の計算 問い: 下記のデータの分散を答えよ データ ① 15.2 {1,2,3,4,100} ② 152 ③ 1522 ④ 15222 𝑛 分散 𝑠2 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 𝑖=1 2

184.

クイズ(回答) 分散の計算 問い: 下記のデータの分散を答えよ データ ① 15.2 {1,2,3,4,100} ② 152 ③ 1522 ④ 15222 𝑛 分散 𝑠2 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 𝑖=1 2

185.

ばらつきの指標 分散 データが「平均値からどれほど離れているか」 を表す指標 売り上げ(万円) 分散大 分散小 1000 500 0 平均値 185

186.

ばらつきの指標 分散 データが「平均値からどれほど離れているか」 を表す指標 平均値から 売り上げ(万円) 分散大 離れている 分散小 1000 500 0 平均値 186

187.

ばらつきの指標 分散 データが「平均値からどれほど離れているか」 を表す指標 売り上げ(万円) 分散大 1000 500 0 多くのデータが、 分散小 平均値から離れている →分散が大きくなる 平均値 187

188.

様々な統計量 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 𝑠2 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 個別のデータが、 平均値からどれほど離れているか計算 188

189.

様々な統計量 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 𝑠2 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 「データと平均値との差異 𝑥𝑖 − 𝑥ҧ さらに平均値をとっている 2 」の 多くのデータ𝑥𝑖 が平均値𝑥と離れていたら ҧ 分散は大きな値をとる 189

190.

分散の解釈について 問い: A,Bのどちらの方が分散が大きいか? なお、最大値・最小値・平均値は、A,B間で等しいとする 売り上げ(万円) A B 1000 500 平均値 0 ① Aの分散が大きい ② Bの分散が大きい ③ 同じ

191.

ばらつきの指標 1.分散 2.標準偏差 3.四分位点・最大・最小 191

192.

標準偏差 分散の扱いにくいところ 分散は計算時に「2乗」する処理が入る →正負の符号を消せる →単位が変わってしまっている 標準偏差 分散の平方根を取ったもの 標準偏差 = 分散 平方根(ルート)をとって2乗を消す 192

193.

ばらつきの指標 1.分散 2.標準偏差 3.四分位点・最大・最小 193

194.

四分位点・最大・最小 データ{1,2,3,4,5} 最小値 {1,2,3,4,5} 第1四分位(25%点) {1,2,3,4,5} 中央値(50%点) {1,2,3,4,5} 第3四分位(75%点) {1,2,3,4,5} 最大値 {1,2,3,4,5} 194

195.

まとめ 代表値の指標 平均値・中央値・最頻値 ばらつきの指標 分散・標準偏差・四分位点・最大値・最小値 195

196.

統計学 I 第4回:二次元データの整理

197.

内容 1.クロス集計表 2.散布図 3.共分散 4.相関係数 197

198.

データの分類方法(復習) 1変量データ(1次元データ) 1つの変数だけからなるデータ 多変量データ(多次元データ) 2つ以上の変数からなるデータ ←今日やります 多変量の中でも、2つの変数だけが対象 3つ以上の変数でも、応用は効く 198

199.

クロス集計表 199

200.

クロス集計表 1.クロス集計表の基本 2.クロス集計表を使うべきとき 200

201.

クロス集計表 1.クロス集計表の基本 2.クロス集計表を使うべきとき 201

202.

クロス集計表 クロス集計表 カテゴリーごとの度数を記録した表 ただし、通常の度数分布表と異なり 「変数の組み合わせ」で度数を記録する 202

203.

クロス集計表 合計:25人 普通の度数分布表 属性(学科) 経済学科 2022年入学 国際経済学科 経営学科 観光経営学科 度数 10 5 7 3 合計:25人 2021年入学 属性(学科) 経済学科 5 国際経済学科 2 経営学科 13 観光経営学科 5 度数 203

204.

クロス集計表 クロス集計表 学科 経済学科 国際経済学科 経営学科 観光経営学科 入学年度 2022年 2021年 10 5 5 7 2 13 3 5 年度による学科の違いが、 クロス集計表を使えば一目でわかる 204

205.

クロス集計表 生データをクロス集計表へ 生のアンケートデータ 学科 経済学科 入学年度 2022年度 経済学科 経営学科 経営学科 2021年度 2022年度 2022年度 ・・・以下略 学科と入学年度の2つの属性をアンケート 2つの属性の組み合わせで集計する 205

206.

クロス集計表 クロス集計表 学科 2022年度入学 かつ、 経済学科所属は10人 経済学科 国際経済学科 経営学科 観光経営学科 入学年度 2022年 2021年 10 5 5 7 2 13 3 5 学科と入学年度の2つの属性をアンケート 2つの属性の組み合わせで集計する 206

207.

クロス集計表 1.クロス集計表の基本 2.クロス集計表を使うべきとき 207

208.

クロス集計表 クロス集計表を使うべきタイミング ナマズは地震予知ができるか?! 地震あり 暴れた 20 ナマズの行動 暴れていない 2 ナマズが暴れたら、地震が発生する!? ……何かデータが足りていない気がする 208

209.

クロス集計表 クロス集計表を使うべきタイミング ナマズは地震予知ができるか?! 地震の有無 地震あり 地震なし 暴れた 20 ? ナマズの行動 暴れていない 2 ? 地震が発生した時の度数だけを記録 →地震が発生しなかった時のデータが無い 209

210.

クロス集計表 クロス集計表を使うべきタイミング ナマズは地震予知ができるか?! 地震の有無 地震あり 地震なし 暴れた 20 200 ナマズの行動 暴れていない 2 20 ナマズは常に暴れている ナマズを見て、地震を予知するのは難しい 210

211.

クロス集計表 よくある間違い 全ての犯罪者は、普段の生活でお水を飲んでいた! ↓ だから、お水を飲む人は犯罪者だ!!! 水を飲んだか 飲む 飲まない 犯罪の有無 犯罪あり 犯罪なし 10 10000 0 0 「犯罪あり」の列だけを見てはいけない 211

212.

クロス集計表 よくある間違い 全ての犯罪者は、普段の生活でお水を飲んでいた! ↓ だから、お水を飲む人は犯罪者だ!!! 水を飲んだか 飲む 飲まない 犯罪の有無 犯罪あり 犯罪なし 10 10000 0 0 「犯罪を犯していない人のデータ」も大事 全人類、水は飲む 212

213.

散布図 213

214.

散布図 散布図 2つの変数の関係を表したグラフ 𝑖番目の観測値を𝑥𝑖 および𝑦𝑖 と表記することにします 𝑖 = 1,2, … , 𝑛 (観測値は𝑛個ある。今回は𝑛 = 4) 変数𝒙 𝑥1 = 10 𝑥2 = 4 変数𝒚 𝑦1 = 8 𝑦2 = 3 𝑥3 = 6 𝑥4 = 1 𝑦3 = 2 𝑦4 = 1 𝑥𝑖 および𝑦𝑖 のペアに着目 214

215.

散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 215

216.

散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥1 = 10, 𝑦1 = 8 216

217.

散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥2 = 4, 𝑦2 = 3 217

218.

散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥3 = 6, 𝑦3 = 2 218

219.

散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥4 = 1, 𝑦4 = 1 219

220.

共分散 220

221.

共分散 共分散が0より大きい Y 共分散が0より小さい 𝑥の平均値 Y 𝑥の平均値 𝑦 の平均値 𝑦 の平均値 X X

222.

共分散 共分散が0より大きい Y 共分散が0より小さい 𝑥の平均値 Y 𝑥の平均値 X 𝑦 の平均値 𝑦 の平均値 右肩上がり 右肩下がり X

223.

共分散 データ 𝑥𝑖 , 𝑦𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 の平均を𝑥と、 ҧ 𝑦𝑖 の平均を𝑦とする ത CovはCovariance(共分散の英語)の略 共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 𝑥1 − 𝑥ҧ 𝑦1 − 𝑦ത + 𝑥2 − 𝑥ҧ 𝑦2 − 𝑦ത + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑦𝑛 − 𝑦ത = 𝑛 223

224.

データ 共分散 平均値 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 共分散 𝑥ҧ = 5.25, 𝑦ത = 3.5 𝑥1 − 𝑥ҧ 𝑥2 − 𝑥ҧ 𝑥3 − 𝑥ҧ 𝑥4 − 𝑥ҧ = 4.75 = −1.25 = 0.75 = −4.25 𝑦1 − 𝑦ത 𝑦2 − 𝑦ത 𝑦3 − 𝑦ത 𝑦4 − 𝑦ത = 4.5 = −0.5 = −1.5 = −2.5 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 Cov 𝑥𝑖 , 𝑦𝑖 𝑛 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 4.75 × 4.5 + −1.25 × −0.5 + 0.75 × −1.5 + −4.25 × −2.5 4 224 = 7.875

225.

共分散 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 右肩上がり 225

226.

共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 共分散が0より大きい Y 𝑖=1 𝑥の平均値 𝑦 の平均値 右肩上がり X

227.

共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 共分散が0より大きい Y 𝑖=1 𝑥の平均値 𝑦 の平均値 X 観測値𝑥𝑖 が平均𝑥よりも大なら、 ҧ 観測値𝑦𝑖 も平均𝑦よりも大 ത この時 𝑥𝑖 − 𝑥ҧ も 𝑦𝑖 − 𝑦ത も プラスの値をとる →共分散はプラスの値をとる

228.

共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 共分散が0より大きい Y 𝑖=1 𝑥の平均値 𝑦 の平均値 X 観測値𝑥𝑖 が平均𝑥よりも小なら、 ҧ 観測値𝑦𝑖 も平均𝑦よりも小 ത この時 𝑥𝑖 − 𝑥ҧ も 𝑦𝑖 − 𝑦ത も マイナスの値をとる →マイナス×マイナスは、プラス →共分散はプラスの値をとる

229.

共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 共分散が0より小さい Y 𝑥の平均値 𝑦 の平均値 右肩下がり X

230.

共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 共分散が0より小さい Y 𝑥の平均値 𝑦 の平均値 観測値𝑥𝑖 が平均𝑥よりも小なら、 ҧ 観測値𝑦𝑖 は平均𝑦よりも大 ത この時 𝑥𝑖 − 𝑥ҧ はマイナス 一方で 𝑦𝑖 − 𝑦ത はプラスの値をとる →共分散はマイナスの値をとる X

231.

共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 共分散が0より小さい Y 𝑥の平均値 𝑦 の平均値 観測値𝑥𝑖 が平均𝑥よりも大なら、 ҧ 観測値𝑦𝑖 は平均𝑦よりも小 ത この時 𝑥𝑖 − 𝑥ҧ はプラス 一方で 𝑦𝑖 − 𝑦ത はマイナス →共分散はマイナスの値をとる X

232.

クイズ 共分散のイメージ 変数𝒙 𝑥1 = 10 𝑥2 = 2 問い: 右のデータの共分散の 正負を答えよ なお、 𝑥ҧ = 6, 𝑦ത = 5 ① プラス ② マイナス 変数𝒚 𝑦1 = 9 𝑦2 = 1 ③ ちょうど0 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1

233.

クイズ(回答) 共分散のイメージ 変数𝒙 𝑥1 = 10 𝑥2 = 2 問い: 右のデータの共分散の 正負を答えよ なお、 𝑥ҧ = 6, 𝑦ത = 5 ① プラス ② マイナス 変数𝒚 𝑦1 = 9 𝑦2 = 1 ③ ちょうど0 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1

234.

クイズ 共分散の計算 問い: 右のデータの共分散を答えよ なお、 𝑥ҧ = 6, 𝑦ത = 5 ① 0.6 ②6 変数𝒙 𝑥1 = 10 𝑥2 = 2 ③ 16 変数𝒚 𝑦1 = 9 𝑦2 = 1 ④ 166 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1

235.

クイズ(回答) 共分散の計算 問い: 右のデータの共分散を答えよ なお、 𝑥ҧ = 6, 𝑦ത = 5 ① 0.6 ②6 変数𝒙 𝑥1 = 10 𝑥2 = 2 ③ 16 変数𝒚 𝑦1 = 9 𝑦2 = 1 ④ 166 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1

236.

クイズ(回答) 平均値 𝑥𝑖 − 𝑥ҧ データ 𝑥ҧ = 6, 𝑦ത = 5 𝑥1 − 𝑥ҧ = 4 𝑥2 − 𝑥ҧ = −4 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 9 𝑥2 = 2 𝑦2 = 1 Cov 𝑥𝑖 , 𝑦𝑖 𝑛 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 𝑦𝑖 − 𝑦ത 共分散 𝑦1 − 𝑦ത = 4 𝑦2 − 𝑦ത = −4 4 × 4 + −4 × −4 2 = 16 236

237.

相関係数 「ピアソンの積率相関係数」と呼ばれる指標を紹介 今回の講義では単に「相関係数」と呼ぶ 237

238.

相関係数 1.共分散の使い難いところ 2.相関係数 3.相関係数の限界 238

239.

相関係数 1.共分散の使い難いところ 2.相関係数 3.相関係数の限界 239

240.

相関係数 データ 𝑥𝑖 , 𝑦𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 の平均を𝑥と、 ҧ 𝑦𝑖 の平均を𝑦とする ത 共分散 𝑛 1 Cov 𝑥𝑖 , 𝑦𝑖 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 𝑥𝑖 の値に100をかけると、どうなるか? 240

241.

相関係数 データ 𝑥𝑖 , 𝑦𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 の平均を𝑥と、 ҧ 𝑦𝑖 の平均を𝑦とする ത 共分散 𝑛 1 Cov 100𝑥𝑖 , 𝑦𝑖 = ෍ 100𝑥𝑖 − 100𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 𝑛 1 = ෍ 100 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 = 100 × Cov 𝑥𝑖 , 𝑦𝑖 𝑥𝑖 に100をかけると、共分散も100倍される 241

242.

相関係数 共分散は単位の変換によって、値が変わる m(メートル)単位で計測していたのを cm(センチメートル)単位にすると、共分散は変化する 単位を変えると、関係性の強さが変わる これはちょっと不自然な気がする 242

243.

相関係数 1.共分散の使い難いところ 2.相関係数 3.相関係数の限界 243

244.

相関係数 データ 𝑥𝑖 , 𝑦𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 の平均を𝑥と、 ҧ 𝑦𝑖 の平均を𝑦とする ത 𝑥𝑖 の標準偏差を𝑠𝑥 と、 𝑦𝑖 の標準偏差を𝑠𝑦 とする 𝑥𝑖 , 𝑦𝑖 の共分散をCov 𝑥𝑖 , 𝑦𝑖 とする 相関係数 𝑟𝑥𝑦 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑠𝑥 ∙ 𝑠𝑦 相関係数は−1 ≤ 𝑟𝑥𝑦 ≤ 1の範囲を取る 単位によっても変化しないので便利 244

245.

相関係数 相関係数の解釈 𝑟𝑥𝑦 = 1ならば、完全に右肩上がり 245

246.

相関係数 相関係数の解釈 𝑟𝑥𝑦 = −1ならば、完全に右肩下がり 246

247.

相関係数 相関係数の解釈 𝑟𝑥𝑦 ≈ 0ならば、関係性なし( ≈ はほぼ等しいという記号) 247

248.

相関係数 相関係数の解釈 𝑟𝑥𝑦 ≈ 0.6のデータ 相関係数は、あくまでも「目安」 目安が役に立たない例も後ほど紹介 248

249.

クイズ 相関係数の計算① 問い: 右のデータの標準偏差を答えよ (小数点以下第3位で四捨五入) ① 𝑠𝑥 = 0.24 𝑠𝑦 = 0.92 ② 𝑠𝑥 = 3.24 𝑠𝑦 = 2.92 変数𝒙 𝑥1 = 10 𝑥2 = 4 変数𝒚 𝑦1 = 9 𝑦2 = 3 𝑥3 = 5 𝑥4 = 1 𝑦3 = 2 𝑦4 = 2 ③ 𝑠𝑥 = 32.40 𝑠𝑦 = 29.15 𝑛 分散 𝑠𝑥2 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 𝑖=1 2 標準偏差 𝑠𝑥 = 𝑠𝑥2

250.

クイズ(回答) 相関係数の計算① 問い: 右のデータの標準偏差を答えよ (小数点以下第3位で四捨五入) ① 𝑠𝑥 = 0.24 𝑠𝑦 = 0.92 ② 𝑠𝑥 = 3.24 𝑠𝑦 = 2.92 変数𝒙 𝑥1 = 10 𝑥2 = 4 変数𝒚 𝑦1 = 9 𝑦2 = 3 𝑥3 = 5 𝑥4 = 1 𝑦3 = 2 𝑦4 = 2 ③ 𝑠𝑥 = 32.40 𝑠𝑦 = 29.15 𝑛 分散 𝑠𝑥2 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 𝑖=1 2 標準偏差 𝑠𝑥 = 𝑠𝑥2

251.

クイズ 相関係数の計算② 変数𝒙 𝑥1 = 10 𝑥2 = 4 変数𝒚 𝑦1 = 9 𝑦2 = 3 𝑥3 = 5 𝑥4 = 1 𝑦3 = 2 𝑦4 = 2 問い: 右のデータの相関係数を答えよ (小数点以下第3位で四捨五入) ただし、𝑠𝑥 = 3.24, 𝑠𝑦 = 2.92, Cov 𝑥𝑖 , 𝑦𝑖 = 8.5 ① 𝑟𝑥𝑦 = 0.70 ② 𝑟𝑥𝑦 = 0.80 相関係数 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑠𝑥 ∙ 𝑠𝑦 𝑟𝑥𝑦 ③ 𝑟𝑥𝑦 = 0.90

252.

クイズ(回答) 相関係数の計算② 変数𝒙 𝑥1 = 10 𝑥2 = 4 変数𝒚 𝑦1 = 9 𝑦2 = 3 𝑥3 = 5 𝑥4 = 1 𝑦3 = 2 𝑦4 = 2 問い: 右のデータの相関係数を答えよ (小数点以下第3位で四捨五入) ただし、𝑠𝑥 = 3.24, 𝑠𝑦 = 2.92, Cov 𝑥𝑖 , 𝑦𝑖 = 8.5 ① 𝑟𝑥𝑦 = 0.70 ② 𝑟𝑥𝑦 = 0.80 相関係数 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑠𝑥 ∙ 𝑠𝑦 𝑟𝑥𝑦 ③ 𝑟𝑥𝑦 = 0.90

253.

相関係数 1.共分散の使い難いところ 2.相関係数 3.相関係数の限界 253

254.

相関係数の限界 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 共分散や相関係数でわかるのは 「直線的な関係」だけ 254

255.

相関係数の限界 共分散や相関係数は、 ほぼゼロになってしまう 相関係数が役に立たない時 Y Y X X

256.

相関係数の限界 相関係数の限界 一見すると、あまり関係が無さそうなデータでも 絶対値が大きな相関係数が得られることがある 256

257.

相関係数 問い:相関係数が0.9以上のデータはどれ? (複数回答可) ① ② ③ ④

258.

相関係数 問い:相関係数が0.9以上のデータはどれ? ① 𝑟𝑥𝑦 = −0.04 ③ ② 𝑟𝑥𝑦 = 0.97 ④ 𝑟𝑥𝑦 = 0.98 𝑟𝑥𝑦 = 0.93

259.

相関係数の限界 相関係数は役に立たないか? 使い道によっては便利 まずは相関係数を求めて、 相関係数が大きなデータをピックアップ その後、散布図などを使ってデータを再チェック 相関係数は、あくまでも「目安」 散布図などもチェックするのが大切 259

260.

統計学 I 第5回:記述統計の応用

261.

内容 1.層別分析 2.小テストの解説 3.平均・分散・標準偏差の性質 4.基準化変量 261

262.

層別分析 262

263.

層別分析 層別 例えば「年齢別」や「性別」など、 属性ごとに分けること 層別分析 層別に集計などを行うこと とても単純だが、応用が効く どのように分けるかが、腕の見せ所 263

264.

層別分析 あるお店のデータ(本物のデータではない) 商品の販促(販売促進の略語。例えば宣伝とか)を した時、しなかった時で、売り上げのデータを比較 販促時売り上げ < 通常時売り上げ これは、天気別に層別分析をすれば 原因がわかる

265.

層別分析 「販促したら売り上げが減った」というデータの取り扱い 仮想の売上データ 20 15 15 10 8 10 5 5 0 晴 販促あり 雨 販促なし

266.

層別分析 天気が同じなら、 「販促したら売り上げが減った」というデータの取り扱い 販促すると売り上げがUP 仮想の売上データ 20 15 15 10 8 10 5 5 0 晴 販促あり 雨 販促なし

267.

層別分析 「晴」のときの「販促なし」と 「雨」のときの「販促あり」だと、 「販促したら売り上げが減った」というデータの取り扱い 「販促なし」の方が売り上げが高くなる 仮想の売上データ 15 20 15 10 8 10 5 5 0 晴 販促あり 雨 販促なし

268.

小テストの解説 268

269.

小テストの解説:平均・分散の性質 平均・分散の性質 データに一律に「5」を足したとする。 平均・分散の正しい変化を述べよ ×平均も分散も5増える ○平均は5増えるが、分散は変わらない ×平均は変わらないが、分散は5増える ×平均も分散も変わらない 269

270.

小テストの解説:平均・分散の性質 平均・分散の性質 考え方その1:自分で数値例を作って確認 データ {2,4} 平均値 2+4 =3 2 分散 2−3 2 1+1 = 2 =1 + 4−3 2 2 270

271.

小テストの解説:平均・分散の性質 平均・分散の性質 考え方その1:自分で数値例を作って確認 データ {7,9} 平均値 7+9 =8 2 分散 7−8 2 1+1 = 2 =1 + 9−8 2 5を足す 2 271

272.

小テストの解説:平均・分散の性質 平均・分散の性質 考え方その1:自分で数値例を作って確認 データ {2,4} 平均値 3 分散 1 5増えた 変わらず データ {7,9} 平均値 8 分散 1 平均は5増えるが、分散の値は変わらず データの変換がもたらす影響を理解しよう 272

273.

平均・分散・標準偏差の性質 273

274.

平均・分散の性質 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑥ҧ = ෍ 𝑥𝑖 = 𝑛 𝑛 𝑖=1 𝑛 分散 1 𝑠 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 2 𝑖=1 = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑛 平均値は、データを足すだけ 分散は、引き算と2乗の計算も行う 2 274

275.

内容 1.データの変換と、平均値の性質 2.データの変換と、分散の性質 3.データの変換と、標準偏差の性質 275

276.

内容 1.データの変換と、平均値の性質 2.データの変換と、分散の性質 3.データの変換と、標準偏差の性質 276

277.

平均・分散の性質 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 𝑥ҧ = ෍ 𝑥𝑖 𝑛 𝑖=1 データに一律に「5」を足すとどうなる? 277

278.

平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 = ෍ 𝑥𝑖 + 5 𝑛 𝑖=1 278

279.

平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 = ෍ 𝑥𝑖 + 5 𝑛 𝑖=1 𝑥1 + 5 + 𝑥2 + 5 + ⋯ + 𝑥𝑛 + 5 = 𝑛 279

280.

平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 = ෍ 𝑥𝑖 + 5 𝑛 𝑖=1 𝑥1 + 5 + 𝑥2 + 5 + ⋯ + 𝑥𝑛 + 5 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5 + 5 + ⋯ + 5 = 𝑛 280

281.

平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 = ෍ 𝑥𝑖 + 5 𝑛 𝑖=1 𝑥1 + 5 + 𝑥2 + 5 + ⋯ + 𝑥𝑛 + 5 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5 + 5 + ⋯ + 5 = 𝑛 5が𝑛回足される 281

282.

平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 = ෍ 𝑥𝑖 + 5 𝑛 𝑖=1 𝑥1 + 5 + 𝑥2 + 5 + ⋯ + 𝑥𝑛 + 5 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5 + 5 + ⋯ + 5 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5𝑛 = 𝑛 5が𝑛回足される 282

283.

平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 平均値 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5𝑛 = 𝑛 283

284.

平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 平均値 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5𝑛 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 5𝑛 = + 𝑛 𝑛 284

285.

平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 平均値 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5𝑛 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 5𝑛 = + 𝑛 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = +5 𝑛 285

286.

平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 平均値 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5𝑛 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 5𝑛 = + 𝑛 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = +5 𝑛 元のデータの平均値 286

287.

平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 平均値 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 + 5𝑛 = 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 5𝑛 = + 𝑛 𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = +5 𝑛 = 𝑥ҧ + 5 平均値は5増える! 287

288.

平均・分散の性質 平均値の性質 結果1:データに、何か値を足すと、平均値も増える ↓ データに値を引くとどうなる? 引き算は「マイナスの値を足す」と考える 288

289.

平均・分散の性質 データ 𝑥𝑖 + −5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 = ෍ 𝑥𝑖 + −5 𝑛 𝑖=1 以下、全くおなじ計算手順を進めて・・・ = 𝑥ҧ + −5 データから5を引くと、平均値も5減る 289

290.

平均・分散の性質 平均値の性質 結果1:データに、何か値を足すと、平均値も増える 結果2:データに、何か値を引くと、平均値も減る ↓ データに値を掛けたり割ったりしたらどうなる? 290

291.

平均・分散の性質 データ ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 × 5 𝑛 平均値 1 = ෍ 𝑥𝑖 × 5 𝑛 𝑖=1 291

292.

平均・分散の性質 データ ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 × 5 𝑛 平均値 1 = ෍ 𝑥𝑖 × 5 𝑛 𝑖=1 𝑛 1 = 5 × ෍ 𝑥𝑖 𝑛 𝑖=1 元のデータの平均値 292

293.

平均・分散の性質 データ ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 × 5 𝑛 平均値 1 = ෍ 𝑥𝑖 × 5 𝑛 𝑖=1 𝑛 1 = 5 × ෍ 𝑥𝑖 𝑛 𝑖=1 元のデータの平均値 = 5 × 𝑥ҧ 平均値は5倍される! 293

294.

平均・分散の性質 掛け算と割り算 データを5倍すると、平均値も5倍になる ↓ データを5で割るとどうなる? ↓ 1 データに を掛けると考えると、掛け算と同じ 5 ↓ すべてのデータを5で割ると、平均値も5分の1になる 294

295.

平均・分散の性質 データ 𝑎 ∙ 𝑥𝑖 + 𝑏 「なんかの数値」 くらいの意味 ただし 𝑖 = 1,2, … , 𝑛 であり、𝑎, 𝑏は定数 平均値の変換公式 元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 𝑎 ∙ 𝑥𝑖 + 𝑏 の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる 1 𝑎は など分数も取りうる 5 𝑏は -5 など負の値も取りうる 295

296.

クイズ 平均値の変換公式を使いこなす 問い: 𝑥ҧ = 5のデータがある。 元のデータに「2」をかけてから、「6」を足した 変換後のデータの平均値は? ① 15 ② 16 ③ 17 ④ 18 ⑤ 19 元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 𝑎 ∙ 𝑥𝑖 + 𝑏 の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる

297.

クイズ(回答) 平均値の変換公式を使いこなす 変換後の平均値は 2 × 5 + 6 = 16 問い: 𝑥ҧ = 5のデータがある。 元のデータに「2」をかけてから、「6」を足した 変換後のデータの平均値は? ① 15 ② 16 ③ 17 ④ 18 ⑤ 19 元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 𝑎 ∙ 𝑥𝑖 + 𝑏 の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる

298.

内容 1.データの変換と、平均値の性質 2.データの変換と、分散の性質 3.データの変換と、標準偏差の性質 298

299.

平均・分散の性質 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑥ҧ = ෍ 𝑥𝑖 = 𝑛 𝑛 𝑖=1 𝑛 分散 1 𝑠 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 2 𝑖=1 = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑛 平均値は、データを足すだけ 分散は、引き算と2乗の計算も行う 2 299

300.

平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑥も5増える ҧ 𝑛 分散 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 𝑥𝑖 は5増える データに5を足しても、相殺される! →データに何かを足しても分散は変わらず 300

301.

クイズ 分散の変換公式を使いこなす 問い: 元のデータに「2」を引いた場合、分散は変わる? ① 変わる ② 変わらない

302.

クイズ(回答) 分散の変換公式を使いこなす 問い: 元のデータに「2」を引いた場合、分散は変わる? ① 変わる ② 変わらない

303.

平均・分散の性質 データ 𝑥𝑖 − 5 ただし 𝑖 = 1,2, … , 𝑛 𝑥も5減る ҧ 𝑛 分散 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 𝑥𝑖 は5減る 引き算も、同じく相殺される 公式を使いこなせるようになろう 303

304.

平均・分散の性質 分散の性質 分散は、データに数値を足しても引いても変わらない ↓ かけたり、割ったりしたらどうなる? 304

305.

平均・分散の性質 データ 𝑥𝑖 × 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 1 = ෍ 𝑥𝑖 × 5 − 𝑥ҧ × 5 𝑛 2 𝑖=1 305

306.

平均・分散の性質 データ 𝑥𝑖 × 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 1 = ෍ 𝑥𝑖 × 5 − 𝑥ҧ × 5 𝑛 2 𝑖=1 𝑛 1 = ෍ 5 × 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 306

307.

平均・分散の性質 データ 𝑥𝑖 × 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 1 = ෍ 𝑥𝑖 × 5 − 𝑥ҧ × 5 𝑛 2 𝑖=1 𝑛 1 = ෍ 5 × 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 𝑛 1 = ෍ 52 × 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 307

308.

平均・分散の性質 データ 𝑥𝑖 × 5 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 1 = ෍ 𝑥𝑖 × 5 − 𝑥ҧ × 5 𝑛 2 𝑖=1 𝑛 1 = ෍ 5 × 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 𝑛 1 = ෍ 52 × 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 元のデータの分散 𝑛 1 2 = 5 ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 𝑖=1 2 308

309.

平均・分散の性質 データ 𝑎 ∙ 𝑥𝑖 + 𝑏 ただし 𝑖 = 1,2, … , 𝑛 であり、𝑎, 𝑏は定数 分散の変換公式 元のデータ𝑥𝑖 の分散を𝑠 2 とする 𝑎 ∙ 𝑥𝑖 + 𝑏 の分散は 𝑎2 ∙ 𝑠 2 となる 1 𝑎は など分数も取りうる 5 𝑏は -5 など負の値も取りうる 309

310.

内容 1.データの変換と、平均値の性質 2.データの変換と、分散の性質 3.データの変換と、標準偏差の性質 310

311.

標準偏差の性質 分散の扱いにくいところ 分散は計算時に「2乗」する処理が入る →正負の符号を消せる →単位が変わってしまっている 標準偏差 分散の平方根を取ったもの 標準偏差 = 分散 平方根(ルート)をとって2乗を消す 311

312.

標準偏差の性質 データ 𝑎 ∙ 𝑥𝑖 + 𝑏 ただし 𝑖 = 1,2, … , 𝑛 であり、𝑎, 𝑏は定数 標準偏差の変換公式 元のデータ𝑥𝑖 の標準偏差を𝑠とする 𝑎 ∙ 𝑥𝑖 + 𝑏 の標準偏差は 𝑎∙𝑠 となる 分散の変換公式から 2乗がなくなっただけ 312

313.

基準化変量 データの平均値や分散の値を統一化する 313

314.

内容 1.平均ゼロのデータを作ろう 2.分散1(標準偏差も1)のデータを作ろう 3.基準化変量 4.基準化変量の使い道 314

315.

内容 1.平均ゼロのデータを作ろう 2.分散1(標準偏差も1)のデータを作ろう 3.基準化変量 4.基準化変量の使い道 315

316.

クイズ 平均値がゼロのデータを作ろう 問い: 平均値が𝑥であるデータ𝑥 ҧ 𝑖 に対してどのような変換をすれば 変換後の平均値はゼロになるだろうか ① 𝑥𝑖 -5 ② 𝑥𝑖 + 𝑥ҧ ④ 𝑥𝑖 × 𝑥ҧ 1 𝑥ҧ ⑤ 𝑥𝑖 × ③ 𝑥𝑖 − 𝑥ҧ 元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 𝑎 ∙ 𝑥𝑖 + 𝑏 の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる

317.

クイズ(回答) 平均値がゼロのデータを作ろう 問い: 平均値が𝑥であるデータ𝑥 ҧ 𝑖 に対してどのような変換をすれば 変換後の平均値はゼロになるだろうか ① 𝑥𝑖 -5 ② 𝑥𝑖 + 𝑥ҧ ④ 𝑥𝑖 × 𝑥ҧ 1 𝑥ҧ ⑤ 𝑥𝑖 × ③ 𝑥𝑖 − 𝑥ҧ 元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 𝑎 ∙ 𝑥𝑖 + 𝑏 の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる

318.

平均・分散の性質 データ 𝑥𝑖 − 𝑥ҧ ただし 𝑖 = 1,2, … , 𝑛 であり、 元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 平均値の変換公式の利用 𝑎 ∙ 𝑥𝑖 + 𝑏 𝑥𝑖 − 𝑥ҧ の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる の平均値は𝑥ҧ − 𝑥ҧ = 0となる データから一律に平均値𝑥を引くと、 ҧ 変換後のデータの平均値は0になる 318

319.

内容 1.平均ゼロのデータを作ろう 2.分散1(標準偏差も1)のデータを作ろう 3.基準化変量 4.基準化変量の使い道 319

320.

クイズ 分散1(標準偏差も1)のデータを作ろう 問い: 分散が𝑠 2 、標準偏差が𝑠であるデータ𝑥𝑖 に対して、 どのような変換で、変換後の分散(標準偏差)は1になるか ① 𝑥𝑖 -5 ④ 𝑥𝑖 × 1 𝑠2 ② 𝑥𝑖 × 𝑠 2 ③ 𝑥𝑖 × 𝑠 ⑤ 𝑥𝑖 × 1 𝑠 元のデータ𝑥𝑖 の分散を𝑠 2 とする 𝑎 ∙ 𝑥𝑖 + 𝑏 の分散は 𝑎2 ∙ 𝑠 2 となる

321.

クイズ(回答) 分散1(標準偏差も1)のデータを作ろう 問い: 分散が𝑠 2 、標準偏差が𝑠であるデータ𝑥𝑖 に対して、 どのような変換で、変換後の分散(標準偏差)は1になるか ① 𝑥𝑖 -5 ④ 𝑥𝑖 × 1 𝑠2 ② 𝑥𝑖 × 𝑠 2 ③ 𝑥𝑖 × 𝑠 ⑤ 𝑥𝑖 × 1 𝑠 元のデータ𝑥𝑖 の分散を𝑠 2 とする 𝑎 ∙ 𝑥𝑖 + 𝑏 の分散は 𝑎2 ∙ 𝑠 2 となる

322.

内容 1.平均ゼロのデータを作ろう 2.分散1(標準偏差も1)のデータを作ろう 3.基準化変量 4.基準化変量の使い道 322

323.

基準化変量 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 の平均を𝑥とする ҧ 𝑥𝑖 の標準偏差を𝑠とする 基準化変量(標準化変量・標準化得点) 𝑥𝑖 − 𝑥ҧ 𝑧𝑖 = 𝑠 この計算を「標準化」と 呼ぶこともある。頻出。 323

324.

クイズ 基準化変量の平均と分散 問い: 基準化変量𝑧𝑖 の平均と分散の値を答えよ ① 平均0 分散0 ② 平均1 分散0 ③ 平均0 分散1 ④ 平均1 分散1 𝑥𝑖 − 𝑥ҧ 𝑧𝑖 = 𝑠

325.

クイズ(回答) 基準化変量の平均と分散 問い: 基準化変量𝑧𝑖 の平均と分散の値を答えよ ① 平均0 分散0 ② 平均1 分散0 ③ 平均0 分散1 ④ 平均1 分散1 𝑥𝑖 − 𝑥ҧ 𝑧𝑖 = 𝑠

326.

クイズ 基準化変量を求める 問い: データ{2,4}の基準化変量を求めよ ① {-2, 2} ② {-2, 4} ③ {0, 0} ④ {-1, 1} 𝑥𝑖 − 𝑥ҧ 𝑧𝑖 = 𝑠

327.

クイズ(回答) 基準化変量を求める 問い: データ{2,4}の基準化変量を求めよ ① {-2, 2} ② {-2, 4} ③ {0, 0} ④ {-1, 1} 𝑥𝑖 − 𝑥ҧ 𝑧𝑖 = 𝑠

328.

内容 1.平均ゼロのデータを作ろう 2.分散1(標準偏差も1)のデータを作ろう 3.基準化変量 4.基準化変量の使い道 328

329.

基準化変量の使い道 どちらの科目の方が得意だと言えるか? 国語 60点(平均50点、標準偏差10) 数学 60点(平均50点、標準偏差5) 平均からのばらつきの大きさが異なるので 単純な点数の比較はできない 329

330.

基準化変量の使い道 どちらの科目の方が得意だと言えるか? 国語 60点(平均50点、標準偏差10) 数学 60点(平均50点、標準偏差5) テストの点数 分散大 分散小 100 50 0 平均値 330

331.

基準化変量の使い道 どちらの科目の方が得意だと言えるか? 国語 60点(平均50点、標準偏差10) 数学 60点(平均50点、標準偏差5) 分散大 テストの点数 上位3番手 100 50 0 分散小 上位2番手 60点 平均値 331

332.

基準化変量の使い道 どちらの科目の方が得意だと言えるか? 国語 60点(平均50点、標準偏差10) →標準化得点=1 数学 60点(平均50点、標準偏差5) →標準化得点=2 基準化変量(標準化された得点)を使えば、 数学の方が得意だというのがすぐわかる 332

333.

基準化変量の使い道 (復習)共分散と相関係数 相関係数は-1以上1以下の値をとるので使いやすい データ 𝑥𝑖 , 𝑦𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥𝑖 の平均を𝑥と、 ҧ 𝑦𝑖 の平均を𝑦とする ത 𝑥𝑖 の標準偏差を𝑠𝑥 と、 𝑦𝑖 の標準偏差を𝑠𝑦 とする 𝑥𝑖 , 𝑦𝑖 の共分散をCov 𝑥𝑖 , 𝑦𝑖 とする 𝑛 共分散 1 Cov 𝑥𝑖 , 𝑦𝑖 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 相関係数 𝑟𝑥𝑦 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑠𝑥 ∙ 𝑠𝑦 333

334.

基準化変量の使い道 共分散・相関係数と基準化変量の関係 相関係数は基準化変量同士の共分散とみなせる 相関係数 𝑟𝑥𝑦 Cov 𝑥𝑖 , 𝑦𝑖 = 𝑠𝑥 ∙ 𝑠𝑦 𝑛 𝑥𝑖 の標準化 1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത = ෍ 𝑛 𝑠𝑥 ∙ 𝑠𝑦 𝑦𝑖 の標準化 𝑖=1 𝑛 1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത = ෍ ∙ 𝑛 𝑠𝑥 𝑠𝑦 𝑖=1 334

335.

統計学基礎 I 第6回:グラフの活用・講義のまとめ

336.

内容 1.様々なグラフ 2.中間テストまでのまとめ 336

337.

様々なグラフ 337

338.

内容 1.散布図 2.折れ線グラフ 3.棒グラフ 4.箱ひげ図 338

339.

内容 1.散布図 数量データ×数量データ 2.折れ線グラフ 3.棒グラフ 数量データ×カテゴリーデータ 4.箱ひげ図 339

340.

内容 1.散布図 数量データ×数量データ 2.折れ線グラフ 3.棒グラフ 数量データ×カテゴリーデータ 4.箱ひげ図 340

341.

散布図 散布図 2つの変数の関係を表したグラフ 𝑖番目の観測値を𝑥𝑖 および𝑦𝑖 と表記することにします 𝑖 = 1,2, … , 𝑛 (観測値は𝑛個ある。今回は𝑛 = 4) 変数𝒙 𝑥1 = 10 𝑥2 = 4 変数𝒚 𝑦1 = 8 𝑦2 = 3 𝑥3 = 6 𝑥4 = 1 𝑦3 = 2 𝑦4 = 1 𝑥𝑖 および𝑦𝑖 のペアに着目 341

342.

散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 342

343.

散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥1 = 10, 𝑦1 = 8 343

344.

散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥2 = 4, 𝑦2 = 3 344

345.

散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥3 = 6, 𝑦3 = 2 345

346.

散布図 変数𝒙 𝑥1 = 10 変数𝒚 𝑦1 = 8 𝑥2 = 4 𝑥3 = 6 𝑥4 = 1 𝑦2 = 3 𝑦3 = 2 𝑦4 = 1 𝑥4 = 1, 𝑦4 = 1 346

347.

内容 1.散布図 数量データ×数量データ 2.折れ線グラフ 3.棒グラフ 数量データ×カテゴリーデータ 4.箱ひげ図 347

348.

折れ線グラフ 𝑥の昇順で並び替えた 変数𝒙 𝑥1 = 1 変数𝒚 𝑦1 = 1 𝑥2 = 4 𝑥3 = 6 𝑥4 = 10 𝑦2 = 3 𝑦3 = 2 𝑦4 = 8 横軸を「時間」などにすることが多い (時間は並び順が大事なので) 348

349.

内容 1.散布図 数量データ×数量データ 2.折れ線グラフ 3.棒グラフ 数量データ×カテゴリーデータ 4.箱ひげ図 349

350.

棒グラフ x A A A A A A A A A A A B B B B B B B B B B B y 0 1 2 3 4 5 6 7 8 9 10 10 11 12 13 14 15 16 17 18 19 20 グラフに描くデータ カテゴリーBの方が大き いように見える 350

351.

棒グラフ 351

352.

棒グラフ 右のデータの方が、 左のデータと比べて、 平均値が大きい 平均値 352

353.

内容 1.散布図 数量データ×数量データ 2.折れ線グラフ 3.棒グラフ 数量データ×カテゴリーデータ 4.箱ひげ図 353

354.

箱ひげ図 354

355.

箱ひげ図 最大値 最小値 355

356.

箱ひげ図 第3四分位点 第1四分位点 356

357.

箱ひげ図 中央値 357

358.

箱ひげ図 右のデータの方が、 左のデータと比べて、 中央値も四分位点もすべて大きい 358

359.

応用編 x A A A A A A A A A A A B B B B B B B B B B B y 0 1 2 3 4 5 6 7 8 9 10 10 11 12 13 14 15 16 17 18 19 20 x A A A A A A A A A A A B B B B B B B B B B B y 0 1 2 3 4 5 6 7 8 9 10 0 1 2 13 14 15 16 17 28 29 30 359

360.

応用編 平均値だけの比較だと 元データとの違いが不明 360

361.

応用編 最大値や最小値なども 考慮すると、違いが分かる 361

362.

応用編 362

363.

応用編 ヒストグラムを使うと、 分布の特徴が良くわかる ヒストグラムに立ち戻るのは大事 363

364.

中間テストまでのまとめ 364

365.

内容 1.統計学のイントロダクション 2.過去のクイズの復習 中間テストに備える 365