経営統計_02_1変数の記述統計量

12.4K Views

October 13, 23

#記述統計 #代表値 #平均値 #中央値 #最頻値

スライド概要

神戸大学経営学部で2022年度より担当している「経営統計」の講義資料「02_1変数の記述統計量」です。
【変更履歴】
・2025/10/10：代表値の使い分けの説明を追加しました (p. 10)，変動係数の例を追加しました (p. 18)，歪度・尖度の例を追加しました (p. 41)
・2025/04/05：記法について補足しました(p. 5)，標準化に関する説明の順序を入れ替えました（pp. 32-36）
・2025/02/06：変数変換と代表値・散布度の説明の表記を修正しました(pp. 14-16)

Kyosuke Bunji

@BunjiRo

スライド一覧

神戸大学経営学研究科准教授　分寺杏介（ぶんじ・きょうすけ）です。主に心理学的な測定・教育測定に関する研究を行っています。講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は，炎上させずにこっそりお伝えいただけると幸いです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ベイズ統計_07_マルコフ連鎖モンテカルロ法(2)

Kyosuke Bunji 69.6K

ベイズ統計_02_確率の基本とベイズの定理

Kyosuke Bunji 56.4K

ベイズ統計_01_イントロダクション

Kyosuke Bunji 49.6K

ベイズ統計_03_尤度

Kyosuke Bunji 47.7K

ベイズ統計_04_事前分布・基本的なベイズ推論(1)

Kyosuke Bunji 46.1K

ベイズ統計_06_マルコフ連鎖モンテカルロ法(1)

Kyosuke Bunji 44.5K

各ページのテキスト

経営統計 02 １変数の記述統計量分寺杏介神戸大学経営学部  [email protected] ※本スライドは，クリエイティブ・コモンズ表示-非営利 4.0 国際ライセンス（CC BY-NC 4.0）に従って利用が可能です。

https://creativecommons.org/licenses/by-nc/4.0/

（おさらい）統計学でやろうとしていること主に統計学の知識が必要仮説をたてるデータを集める領域の専門的な知識が必要要約する統計的仮説検定手元のデータで計算するデータの相関係数が0.32でした 02 基本的な記述統計量結論を出す一般化できる全体にも当てはまるかを統計的に検証する全体の相関係数もゼロではなさそうですね 2

（おさらい）統計学でやろうとしていること仮説をたてるデータを集める要約する統計的仮説検定結論を出す一般化できる今日からはこの部分のお話 02 基本的な記述統計量 3

記述統計量またの名を要約統計量 ▌データの特徴を簡潔に説明・把握するために A 1 ID B 性別 C D 身長体重 E F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 165 70 2.1 48 155 42 0.8 73 159 63 2.4 62 148 40 1.7 34 147 42 1.6 84 8 7 男この前とったデータから 9 8 女 10 9 男みんなの身長は 11 10 女どんな感じだったか教えて 11 女 12 えっと…１人目が172cm，２人目が 158cm，３人目が160cmで…（略）データが多くなると，一つ一つを見ていてもきりがない上に，結局よくわからない平均は169.5cm，標準偏差は5.6cmでした。知りたいことは結構シンプルで，例えば「平均はこれくらいで，これくらいのバラツキがある」くらいがわかれば良かったりするこれを記述統計量と呼ぶ 02 基本的な記述統計量 4

代表値｜平均値 mean 𝑛 ▌すべてのデータを足して，個数で割った値「年齢」という変数を 𝑥 と表す 𝑛 これ以降，平均値は変数の上に ҧ （バー）をつけて表します 1 1 𝑥ҧ = ෍ 𝑥𝑖 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑛 𝑛 1 𝑖=1 例｜５人の大学生の年齢がそれぞれ19, 21, 20, 19, 22だったら 19 + 21 + 20 + 19 + 22 101 = = 20.2 5 5 A B C ID 性別年齢 2 1 男 19 3 2 女 21 4 3 女 20 5 4 男 19 6 5 女 22 （𝑛 = 5のデータ） 𝑥1 = 19 𝑥2 = 21 𝑥𝑛 = 22 長所すべてのデータを使っているので，いかにも「代表」らしい短所外れ値の影響を受けやすい大人の学び直し無視されているデータが無く全部を活用しているという意味です例｜５人の年齢がそれぞれ19, 21, 20, 19, 56だったら【ちなみに】2013年花巻東高卒業生の平均年収は約5000万円らしいです一般的な大学生とはかけ離れてるなぁ 19 + 21 + 20 + 19 + 56 135 = = 27.0 5 5 02 基本的な記述統計量 5

外れ値があったらどうする？ ▌単純なミスならば迷わず除外 or 修正する例｜身長が1573cmだった記録の元を確認したら157.3cmかもしれない ▌ありえる値だったら基本的には残しておくもちろんミスではないことを確認した上で例｜年収が12000万円というのは「外れ値」だが現実にありえる値むしろ除外してしまうとデータ全体を反映した平均値にならないのでダメ ▌ありえる値でも意図的に除外するケースもある人数年収12000万円が入っている左図では，データの分布がよくわからない。このような場合「外れ値は除外した」ことを明記して関心のある区間に絞ったヒストグラム（右図）を作ったりする人数例｜ヒストグラムを作るとき年 02 基本的な記述統計量年 6

代表値｜中央値 median ▌データを小さい順に並べたときの真ん中の値例｜５人の年齢がそれぞれ19, 21, 20, 19, 22だったら小さい順に並べると19, 19, 20, 21, 22なので，真ん中は20 データが偶数個のときは真ん中に近い2つの平均値をとる長所外れ値につよい短所すべてのデータを使っているわけではない例｜５人の年齢がそれぞれ19, 21, 20, 19, 56だとしても小さい順に並べると19, 19, 20, 21, 56なので，真ん中は20のまま極端な話，５人の年齢がそれぞれ「20未満」，「20未満」，20，「20以上」，「20以上」ならば，他の4人の年齢がいくつであっても中央値は20になる。平均値がすべてのデータを反映した代表値であった一方で，中央値は「小さい順での真ん中の値」以外は（順序以外）全く反映されていないという点で，「代表」感は薄いと感じるかもしれない。 02 基本的な記述統計量 7

代表値｜最頻値 mode ▌最も出現回数（度数）の多い値例｜５人の年齢がそれぞれ19, 21, 20, 19, 22だったら最も出現回数が多いのは19（唯一2回出現）長所外れ値につよい短所すべてのデータを使っているわけではないここが代表値？分布の端になってしまうかもしれない上の例でも19はデータの中での最小値「代表」と言っているくせに分布の端を採用するのは違和感がある連続変数だと使いづらい 3 2 1 本来連続変数では小数を細かくしたら同じ値は無いはずなので，すべての度数が1になり最頻値が定義されなくなってしまう 02 基本的な記述統計量 0 19 20 21 22 8

で，結局どれを使えばいいの？ ▌ルールも正解もないんだよ「外れ値があるときは平均値はダメだ！」「こういうときはこう」と決めつけてしまうと判断ミスを招く可能性があるので，状況に応じて柔軟に使い分けてください「最頻値は代表値としては欠陥品だ！使わないほうがいい！」 ▌みんな違って，みんないい何をもって「代表」とするかの考え方が色々ある，というだけの話「なぜその代表値を使うのか」に責任と自覚を持ってくださいそのために，各代表値の定義と特徴をきちんと理解しておく必要があるのです ▌なんなら全部報告しても問題ない例｜身長の平均値も中央値も最頻値も172cmでした身長の分布が「だいたい左右対称」であることがわかる後の回でもう少し出てきますが，とりあえず「完全に左右対称の分布では平均値と中央値が同じになる」ということは覚えておいて損はありません 02 基本的な記述統計量 9

10.

代表値の使い所 ▌とはいえ，まずは平均値がファーストチョイス「データ全体の特徴」を表すものとして最もメジャーでもあるため ▌変数の性質・分布によっては別の代表値のほうが意味を持つことも例外れ値・歪んだ分布例質的変数平均値は実態に合わない可能性がある【マーケティング：コーヒー店の客単価】そもそも平均値・中央値は求められない【生産管理：Tシャツの販売枚数】客単価が高いので高級路線を拡大しよう！最頻値数平均値： 1717円中央値： 880円会議のために大量購入した人ふつうの利用客計 02 基本的な記述統計量 10

11.

散布度 ▌データの散らばり具合今回のデータの平均値・中央値・最頻値はすべて50でした。代表値が同じでも，散布度が異なるとデータの分布のイメージは全く異なってしまうこんな感じかな？実際には代表値も散布度も同じだからといって分布が完全一致するわけでもないので，最終的にはヒストグラムなど図を使ってデータを確認するのを忘れずに！ 02 基本的な記述統計量 11

12.

偏差 deviation ▌平均値からの差例｜５人の身長がそれぞれ172, 168, 170, 159, 176だったら身長 172 168 170 159 176 平均を引く 172－169 168－169 170－169 159－169 176－169 偏差 3 －1 1 －10 7 数直線上で表すと… －1 1 －10 159 168 170 169 3 平均値は169 7 172 偏差の大きさ＝ばらつきの大きさ 176 すべてのデータが近い値だと偏差もすべて小さくなるので散布度は「偏差の代表値」として表す 02 基本的な記述統計量 12

13.

散布度｜平均偏差 mean deviation 別名：(平均)絶対偏差 mean absolute difference ▌偏差の代表値＝偏差の平均値実際のデータ分析で使うことはあまり無いですが、考え方の導入として紹介します身長 172 168 170 159 176 平均を引く 172－169 168－169 170－169 159－169 176－169 偏差 3 －1 1 －10 7 平均値は０－－偏差 3 －1 1 －10 7 絶対値 3 1 1 10 基本的な記述統計量 7 3 + 1 + 1 + 10 + 7 22 平均偏差 = = 4.4 5 5 平均値169cmから平均して4.4cmずれているという解釈になる偏差の平均値をとると必ず０になる「ばらつき」という意味では偏差がプラスかマイナスかは関係ない平均値からのズレの大きさは「－10」も「10」も同じ偏差の絶対値の平均値を計算してあげるこれが平均偏差 02 基本的な記述統計量 13

14.

散布度｜分散と標準偏差 variance and standard deviation テキストによっては 𝑛 − 1で割っているものもありますが今は完全無視してください。 ▌偏差の平均値その２身長 172 168 170 159 176 平均を引く 172－169 168－169 170－169 159－169 176－169 偏差 3 －1 1 －10 7 平均値は０ 𝑛 偏差 3 －1 1 －10 7 二乗 9 1 1 100 49 9 + 1 + 1 + 100 + 49 160 分散 = = 32 5 5 本当は 32 ≒ ±5.656 ですが，散布度は負の値にならないので+5.656になります標準偏差 32 ≒ 5.656 これも平均値169cmから平均して5.656cmずれているという感じで解釈できる 1 2 𝑠𝑥 = ෍ 𝑥𝑖 − 𝑥ҧ 2 𝑛 偏差の二乗の平均値を計算してあげるこれが分散分散は二乗されているため平均偏差のように解釈できないルートをとることで単位をもとに戻してあげるこれが標準偏差 02 基本的な記述統計量 𝑖=1 分散の単位は二乗されているため「平均値169cmから32cmずれている」という解釈はできない 𝑛 𝑠𝑥 = 𝑠𝑥2 = 1 ෍ 𝑥𝑖 − 𝑥ҧ 2 𝑛 𝑖=1 14

15.

変数変換と代表値・散布度 ① 変数を 𝑎 倍したときテスト得点 80 56 76 63 70 平均を引く 80－69 56－69 76－69 63－69 70－69 偏差 11 －13 7 －6 1 偏差の二乗 121 169 49 36 1 平均値は69 分散は75.2 標準偏差はおよそ8.67 例｜2倍するとテスト得点 2×80 2×56 2×76 2×63 2×70 平均を引く 2×(80－69) 2×(56－69) 2×(76－69) 2×(63－69) 2×(70－69) 偏差 2×11 2×－13 2×7 2×－6 2×1 偏差の二乗 22×121 22×169 22×49 22×36 22×1 平均値は2×69 分散は22×75.2 標準偏差はおよそ2×8.67 22 × 75.2 = 02 基本的な記述統計量 22 × 75.2 = 2 × 75.2 ≒ 2 × 8.67 15

16.

変数変換と代表値・散布度 ② 変数に 𝑏 を足したときテスト得点 80 56 76 63 70 平均を引く 80－69 56－69 76－69 63－69 70－69 偏差 11 －13 7 －6 1 偏差の二乗 121 169 49 36 1 平均値は69 分散は75.2 標準偏差はおよそ8.67 例｜5を足すと平均値は5+69 テスト得点 5+80 5+56 5+76 5+63 5+70 平均を引く (5+80)－(5+69) (5+56)－(5+69) (5+76)－(5+69) (5+63)－(5+69) (5+70)－(5+69) 偏差 11 －13 7 －6 1 偏差の二乗 121 169 49 36 1 分散は75.2 標準偏差はおよそ8.67 つまり散布度は変わらない 02 基本的な記述統計量 16

17.

変数変換と代表値・散布度 ▌まとめると |𝑎| は 𝑎 の絶対値を表す記号例： −3 = 3， 3 = 3 𝑎倍する 𝑏を足す 𝑎倍して𝑏を足す平均値 𝑎倍になる 𝑏大きくなる 𝑎倍＋𝑏になる中央値 𝑎倍になる 𝑏大きくなる 𝑎倍＋𝑏になる ― 1 ― 159 168 3 170 7 172 169 176 最頻値 𝑎倍になる 𝑏大きくなる 𝑎倍＋𝑏になる平均偏差 |𝑎|倍になる変わらない |𝑎|倍になる 5を足すと分散 𝑎2 倍になる変わらない 𝑎2 倍になる ― |𝑎|倍になる変わらない標準偏差 |𝑎|倍になる 164 この表をそのまま覚えるのではなく，それぞれの統計量の定義をきちんと理解しましょう 02 基本的な記述統計量 1 ― 173 175 3 7 175 181 174 全員同じ値を足しても数直線上では平行移動するだけばらつきが変わることはない 17

18.

記述統計量は他にもいろいろ用途に応じて柔軟に考えましょう ▌変動係数 coefficient of variation 一般的に、値が大きいものほどばらつきは大きくなる定義上，変動係数は比率尺度に対してのみ意味のある統計量です • CEOの年収の標準偏差 … ウン千万？ • フリーターの年収の標準偏差 … せいぜい100-200万くらい？「値の大きさの割にばらついている」度を表現したい変動係数 = ▲ 赤の銘柄のほうが変動が大きいが基準額が高いので当たり前営 ▼ 青の銘柄のほうが変動リスクは大きい株価円株価円例 2つの銘柄の株価の推移標準偏差 𝑠𝑥 = 𝑥ҧ 平均値変動係数：4.54% 変動係数：17.8% 営日日 02 基本的な記述統計量 18

19.

記述統計量は他にもいろいろ用途に応じて柔軟に考えましょう ▌幾何平均 geometric mean 徐々に増えるものの「率」に関心がある場合に使われる • 10年間で、売り上げは年平均何%増加したか？売上毎年30%ずつ増えた場合（いわゆる複利）毎年20%ずつ増えた場合毎年10%ずつ増えた場合増加率が一つ決まると、曲線がひかれる年 02 基本的な記述統計量 19

20.

記述統計量は他にもいろいろ用途に応じて柔軟に考えましょう ▌幾何平均 geometric mean 徐々に増えるものの「率」に関心がある場合に使われる • 10年間で、売り上げは年平均何%増加したか？売上始点と終点を結ぶ曲線を作る増加率が幾何平均実際の値 ▼ 𝑛 幾何平均 = ෑ 𝑎𝑖 1 𝑛 = 𝑛 𝑎1 𝑎2 𝑎3 ⋯ 𝑎𝑛 𝑖=1 𝑥 ※ ここでの 𝑎𝑖 は 𝑖 時点目での増加率 𝑎𝑖 = 𝑥 𝑖 年 𝑖−1 02 基本的な記述統計量 20

21.

散布度｜範囲 range ▌最大値と最小値の差身長 172 168 170 159 176 172 176 159 176 範囲 17 159 168 170 ▌範囲内の散らばり具合は全くわからない身長 175 174 160 最大値と最小値のみを用いて計算するので外れ値の影響もモロに受ける範囲 17 159 160 174 175 176 02 基本的な記述統計量 21

22.

四分位数と四分位範囲 quartile and interquartile range 【データの数が奇数の場合】 1. 中央値にあたるデータを除外してから 2. 上位群の中央値が第３四分位数 3. 下位群の中央値が第１四分位数 ▌データを4つに分けた範囲例｜100人の身長を小さい順に並べたもの第１四分位群順位身長 1 2 148.0 149.2 第２四分位群第３四分位群第４四分位群 … 25 26 … 50 51 … 75 76 … 99 … 160.2 160.6 … 169.2 169.4 … 175.4 175.8 … 189.9 192.1 下位群の人数をちょうど半分ずつに分ける値（中央値） 160.4 第１四分位数 169.3 中央値（第２四分位数） 175.6 第３四分位数上位群の人数をちょうど半分ずつに分ける値（中央値） 15.2 四分位範囲 148.6 最小値 160.4 第１四分位数 169.3 中央値 02 基本的な記述統計量 175.6 第３四分位数 100 192.1 最大値 22

23.

（おまけ）平均偏差よりも標準偏差が使われる理由① ▌平均偏差では場合分けが必要になるため平均値が 𝑎 のときのデータ 𝑥 の偏差 𝑦 を式で表してみる平均偏差の場合標準偏差の場合 𝑦 = |𝑥 − 𝑎| 𝑦 = 𝑥−𝑎 2 なのだが，実際にはこれはそのまま扱える 𝑥−𝑎 𝑦=൝ −𝑥 + 𝑎 (𝑥 ≥ 𝑎のとき) (𝑥 < 𝑎のとき) 絶対値を使うといちいち場合分けして 2つの式を考える必要が生じる二乗を使うと場合分けする必要がなく 1つの式を考えるだけで済む加えて，絶対値がある式は微分ができないという弱点があるため，平均偏差は何かと使いづらいのです 02 基本的な記述統計量 23

24.

（おまけ）平均偏差よりも標準偏差が使われる理由② ▌分散のほうが平均値と密接に関係しているためここでは，代表値を代表値たらしめる理由について考えます。「平均値」だ何だという知識は一旦おいて直感的に「代表」っぽいと感じる方を選ぶとすると…？ Q．どちらのほうが代表値っぽいですか？身長 159 172 168 170 159 176 ＡＢ 169 178 168 170 172 たぶん平均値を知らない人に聞いても大多数はＡを選ぶのではないでしょうか 02 基本的な記述統計量 176 リーダーってクラスの中心人物が選ばれることが多いですよね 24

25.

（おまけ）平均偏差よりも標準偏差が使われる理由② ▌なんでAのほうが「代表」っぽいのか？人によっては別の理由を思いつくかもしれませんがここではあくまで「一般論」として話を進めます BよりもAのほうがデータに近いから身長 172 168 170 Ｂ 178 176 172 176 169 Ａ 169 159 159 168 170 178 Bのほうが矢印が長い＝偏差が大きい 159 言い方を変えると 168 170 172 176 代表値とは全体的にその値からの偏差が小さくなるような値のことである 02 基本的な記述統計量 25

26.

（おまけ）平均偏差よりも標準偏差が使われる理由② 「全体的に」なので「偏差の○○の合計値」が小さくなる値を考えます ▌具体的に「全体的に偏差が小さくなる値」って？偏差の扱い方によって変わります偏差の絶対値の場合偏差の絶対値の合計が最小になる値はデータの中央値偏差の二乗の場合偏差の二乗の合計が最小になる値はデータの平均値赤い線（代表値）を右に動かすと「偏差の絶対値の合計」は１小さくなる赤い線より大きいデータの数のほうが小さいデータの数よりも多いため赤い線より大きいデータの数と小さいデータの数が同じになると「偏差の絶対値の合計」は最小＝赤い線が中央値のとき 159 168 170 172 176 代表値として中央値よりも平均値＝「偏差の二乗の合計が最小になる値」がよく使われる散布も，平均値によって最小化された値である分散（および標準偏差）がよく使われる 02 基本的な記述統計量 26

27.

（おまけついでに）最頻値は偏差の何を最小化する代表値なのか？答．偏差の絶対値が一定の値以上のデータの割合を最小化する代表値データのボリュームゾーンを捉えるのに適した代表値と言える例｜ある変数のヒストグラムが２つの山になっていたら最頻値平均値の場合平均値平均値は２つの山のちょうど中間くらいになる例えば平均値±3の範囲のデータは結構少ない最頻値の場合最頻値は２つの山のどちらか一方の頂点になる最頻値±3の範囲のデータは平均値±3の範囲のデータよりも多い 02 基本的な記述統計量 27

28.

標準化とは ▌異なる変数のスケールを揃えるために前回の模試では70点だったのに，異なる変数をそのまま比較する場合ただ値を比較すると良くない今回は50点に下がってるじゃない！成績が落ちてるから睡眠禁止です！変数のスケールを揃えて比較できる形にしよう前回より難しかっただけなのになぁ… テストで大事なことは他の人よりもできているか言い換えると平均値よりどれくらい高得点か言い換えると平均値からの偏差はいくつか偏差に変換してみます 02 基本的な記述統計量 28

29.

標準化とは ▌偏差に変換した結果前回の模試では平均値+10点だったのに，平均値からの偏差に変換しただけではまだ比較は十分ではない今回は平均値+5点に下がってるじゃない！やっぱり成績が落ちてるから睡眠禁止です！【極端な例】前回の模試平均60点期末はみんな似たような点数だったんだよなぁ… 今回の模試平均45点順位点数順位点数 1 2 3 ︙ 100 99 99 ︙ 70 ︙ 32 1 2 3 ︙ 55 55 54 ︙ 50 ︙ 36 ︙ 最下位 ︙ 最下位どうしたら比較できる？ 02 基本的な記述統計量 29

30.

ヒストグラムを書いてみると平均値前回の模試今回の模試のほうが平均値からの偏差は小さいが分布の中では上位にいるなぜ？今回の模試のほうが散布度が小さいため平均値付近に多くの人がいる平均値今回の模試つまり？偏差を散布で調整したら異なる変数を比較できる！この手続きを標準化と呼ぶ 02 基本的な記述統計量 30

31.

標準化のイメージ散布度は「偏差の代表値」でした実際には標準偏差は「偏差の平均値」ではないですが，ここではイメージを掴むために「偏差の平均値」として話を進めます平均値前回の模試平均60 標準偏差10ということは平均値からの偏差の平均が10 標準偏差10 の平均値+10点はある意味「平均的」なズレあるいは偏差10 標準化とは偏差が「標準偏差」いくつ分なのか平均値に変換すること今回の模試平均45 標準偏差3 標準偏差3ということは平均値からの偏差の平均が3 の平均値+5点は「平均的」よりもちょっと大きなズレあるいは偏差5 偏差が標準的（＝偏差が3）な人と比べるとの偏差は5/3=1.67倍もある，ということ 02 基本的な記述統計量 31

32.

標準化の手順 ① 変数を平均値からの偏差に変換する＝平均値を引く ② 偏差を標準偏差で割る 𝑥𝑖 − 𝑥ҧ 𝑧𝑖 = 𝑠𝑥 これだけ。 ② 前回の模試だから成績は上がってるんですよ奥さん平均点60点，標準偏差10点のテストで70 点をとったので 70 − 60 10 = =1 10 10 今回の模試標準化得点平均点45点，標準偏差3点のテストで 50点をとったので 50 − 45 5 = ≒ 1.67 3 3 02 基本的な記述統計量 32 ①

33.

実はおなじみの標準化 ▌日本の高校生は標準化得点に人生を左右されている… 偏差値 = 50 + 10 × 標準化得点あるいはテスト得点を平均値50，標準偏差10に標準化した値とも言える前回の模試ほら，偏差値も上がっているでしょう？奥さん平均点60点，標準偏差10点のテストで 70点をとったので標準化得点は1 偏差値は 50 + 10 × 1 = 60 今回の模試平均点45点，標準偏差3点のテストで 50点をとったので標準化得点は1.67 偏差値は 50 + 10 × 1.67 = 66.7 02 基本的な記述統計量 33

34.

標準化のメリット ▌ 変数の分布を揃えることができる前回の模試今回の模試標準偏差で割る平均値を引く 02 基本的な記述統計量ほぼ完全に一致 34

35.

標準化の特徴 ▌標準化得点は必ず平均0，標準偏差1になる pp. 15-17 当然もとの平均値・標準偏差がいくつであっても成り立つ厳密には「もとの標準偏差が0じゃなければ」 ▌標準化前後で分布の大まかな形は変わらない左右対称じゃなくてももとの分布 2つの山があっても前スライドの内容と合わせるともとの分布の形状が同じであれば平均値・標準偏差が何であれ標準化得点の分布は同じ形になるといえる標準化得点の分布「分布の形状が同じ」の意味に関してはどこかで詳しく説明しますが，例えば前スライドの「前回の模試」と「今回の模試」は同じ形状の分布（正規分布）として扱われます。 02 基本的な記述統計量 35

36.

「標準化」 standardization ▌本当は平均値と標準偏差が特定の値になるような操作全般を指す平均値0，標準偏差1に限った話ではない IQテストは何種類かあってそれぞれ異なる標準偏差を採用している例｜IQは平均値100，標準偏差10～15程度に標準化された指標 ▌ただ一般的には平均値0，標準偏差1に合わせることを指すこうして得られた標準化得点は，特にZ得点と呼ばれる平均をzeroに合わせるから，という説一般的には「標準化得点」といえばZ得点のことを指す以後の資料においても，Z得点のことを「標準化得点」と呼びます 02 基本的な記述統計量 36

37.

なんで偏差値を使うの？【前提】偏差値を教育場面で使用するのはほぼ日本だけです。 ▌偏差値を使う理由は標準化得点のメリットから説明できる？模試の得点から入試の合格可能性を判定するときに • 素点について「何点以上なら合格可能性80%か」を算出したいが，模試の難易度も入試の難易度と同じではないので難しい • 一方標準化得点は難易度に関わらず「集団内での位置」を表してくれる例｜理論上は，標準化得点が1の人は全受験者の上位16%になる難易度によらず「偏差値いくつ以上なら80%か」を考えることはできそう ▌平均値50，標準偏差10にした理由はよくわかりません理論的には標準化得点のままでも何の問題もないけど… 入試で「全受験者の上位何%が合格するか」がわかれば，対応する標準化得点＝偏差値を計算できる（たぶん）テストはふつう100点満点なので50点が真ん中になるのがしっくり来たから？ 02 基本的な記述統計量 37

38.

もうちょっと記述統計量 ▌平均値と分散（標準偏差）だけでは分布の形はわからない標準化得点の分布どちらも平均0、分散1 もともと 𝑛 個あったデータなので２つ（平均・分散）だけでは表せない同じような統計量が 𝑛 個あればデータを完全再現できる (しないけど) モーメントを使った記述統計量平均値は「原点から値がどれだけ動くか」＝「原点からの偏差」の平均値分散は「平均値から値がどれだけ動くか」＝「平均値からの偏差」の二乗の平均値同じようにして三乗、四乗と考えてみましょう https://www.oreyume.com/magazine/learn/19702/ 02 基本的な記述統計量 38

https://www.oreyume.com/magazine/learn/19702/

39.

もうちょっと記述統計量平均値は「原点から値がどれだけ動くか」＝「原点からの偏差」の平均値分散は「平均値から値がどれだけ動くか」＝「平均値からの偏差」の二乗の平均値 ▌歪度 skewness 「平均値からの偏差」の三乗の平均値身長 172 168 170 159 176 平均を引く 172－169 168－169 170－169 159－169 176－169 偏差 3 －1 1 －10 7 三乗 27 ー1 1 ー1000 343 𝑛 三乗の場合、もとの偏差と符号がおなじになる 1 𝑥𝑖 − 𝑥ҧ 歪度 = ෍ 𝑛 𝑠𝑥 平均値から大きく離れた値があると、歪度はその符号に合わせて動く歪度マイナス歪度ゼロ 02 基本的な記述統計量歪度プラス 3 𝑖=1 標準化はしてもしなくても良いが、一般的な定義では標準化している 39

40.

もうちょっと記述統計量平均値は「原点から値がどれだけ動くか」＝「原点からの偏差」の平均値分散は「平均値から値がどれだけ動くか」＝「平均値からの偏差」の二乗の平均値歪度は「平均値から値がどれだけ動くか」＝「平均値からの偏差」の三乗の平均値 ▌尖度 kurtosis 「平均値からの偏差」の四乗の平均値身長 172 168 170 159 176 平均を引く 172－169 168－169 170－169 159－169 176－169 偏差 3 －1 1 －10 7 四乗 81 1 1 10000 2401 𝑛 四乗の場合、偏差の影響が分散よりも相当拡大される 1 𝑥𝑖 − 𝑥ҧ 尖度 = ෍ 𝑛 𝑠𝑥 尖度は分散よりも「平均値周辺の集約度」を表しているといえる尖度小さめ尖度ふつう 02 基本的な記述統計量尖度大きめ 4 𝑖=1 標準化はしてもしなくても良いが、一般的な定義では標準化している 40

41.

そんな統計量どこで使うのさ？例品質管理例為替レートの変動ある製品の出来上がり寸法が… ある通貨の為替レートは… 歪度ゼロ尖度ふつうならば問題はなさそう（多少のばらつきは許容される）歪度マイナスと仮定されていることがあるがもし実際には尖度大きめ国際テロ，大規模災害，パンデミック… ならば問題ありかもたまに異常に小さいものができる製造工程の見直しが必要かも？ 02 基本的な記述統計量だとすると，突発的な暴騰・暴落のリスクを抱えていると言えるポートフォリオ設計に役立つかも？ 41