経営統計_04_回帰分析

7.1K Views

November 10, 23

#回帰分析 #統計学 #データ分析 #説明変数 #被説明変数

スライド概要

神戸大学経営学部で2022年度より担当している「経営統計」の講義資料「04_回帰分析」を公開用に調整したものです。

Kyosuke Bunji

@BunjiRo

スライド一覧

神戸大学経営学研究科准教授　分寺杏介（ぶんじ・きょうすけ）です。主に心理学的な測定・教育測定に関する研究を行っています。講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は，炎上させずにこっそりお伝えいただけると幸いです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.42MB)

関連スライド

各ページのテキスト

経営統計 04 回帰分析分寺杏介神戸大学経営学部  [email protected] ※本スライドは，クリエイティブ・コモンズ表示-非営利 4.0 国際ライセンス（CC BY-NC 4.0）に従って利用が可能です。

https://creativecommons.org/licenses/by-nc/4.0/

回帰分析変化の程度を知りたい・予測がしたい A 1 ID B 性別 C D 身長 E 体重 F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 勉強時間とテストの得点に 7 6 男 169 8 7 男 165 多少の相関があるのはわかった。 9 8 女 155 じゃあ，１時間勉強するとテストの 10 9 男 159 42 1.9 87 80 1.9 39 70 2.1 48 42 0.8 73 63 2.4 62 得点はどれくらい上がるんだい？ 11 女 147 40 1.7 34 42 1.6 84 11 12 10 女 148 相関係数が0.257ってことは… …………どういうことだ？もちろん相関係数を見ても何もわからない回帰係数が4.3なので，勉強時間が１時間伸びるごとに平均で4.3点ほど上がると予測されます。２時間勉強した生徒の予測得点は 65点です。回帰分析の出番です 04 回帰分析 2

回帰とはなんぞや【問】すべてのデータを通る直線を引きなさいデータが１つの場合データが２つの場合体重データが３つの場合体重体重 𝑦 𝑦 一次関数 𝑦 = 𝛽0 + 𝛽1 𝑥 身長色々な直線がありえる身長 𝑥 １つだけに決まるこの線を 04 回帰分析すべての点を通る線は引けないので身長すべてのデータに対して 𝑥 それっぽい線を引く回帰直線と呼ぶ 3

もちろんデータがいくつでも【問】すべてのデータを通る直線を引きなさいデータが３つの場合データがたくさん体重やりたいことはそれっぽい線体重 𝑦 𝑦 を引くこと直線なので１次関数 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 身長すべてのデータに対してそれっぽい線を引くこの線を 𝑥 回帰直線身長すべてのデータに対してそれっぽい線を引くと呼ぶ 04 回帰分析を求めたい 𝑥 𝛽0 と 𝛽1 がどんな値のとき最も「それっぽい線」になるかを考えていきます 4

回帰直線の意味 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 もし手元に身長の情報しかない状態で「体重を予想しろ」と言われたらどうするか？ ▶ 𝑥 がある値のときに 𝑦 は大体どれくらいになるか例）右の回帰直線が 𝑦 = −50 + 0.7𝑥とすると身長𝑥 = 170cmの人の体重はだいたい体重 𝑦 −50 + 0.7 × 170 = 69kg くらい身長𝑥 = 150cmの人の体重はだいたい 69 −50 + 0.7 × 150 = 55kg くらいもちろん個人差があるので「150cm・45kg」の人もいるだろうが，いちいち個人差の話をするとキリがないので「全体的な傾向」として話をする 170 身長 𝑥 04 回帰分析 5

回帰直線の意味 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 こういう言葉の使い分けをする人もいるようですがさほど重要な区別ではない気がしますデータの予測ができるようになる補外（外挿）体重補間（内挿）補外（外挿）例｜大学生の身長と体重を測定手元の全データ（黒い点）から求めた 65.5 回帰直線が 𝑦 = −50 + 0.7𝑥だとすると【補間（内挿）】回帰直線を作る時に使ったデータにおける 𝑥 の範囲内で予測を行うこと 55 Ａさんの身長は150cmでした。体重はどれくらいと予想できるでしょうか。【補外（外挿）】回帰直線を作る時に使ったデータにおける 𝑥 の範囲外で予測を行うことＢさんの身長は165cmでした。 143 体重はどれくらいと予想できるでしょうか。 04 回帰分析 150 Ａ 160 165 身長Ｂ 6

「説明変数」と「被説明変数」 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 この電球はなんでこの明るさになるのか説明してみ？ 50ワットだからですね例｜𝑥が「電球のワット」𝑦が「明るさ」だとワット数𝑥がわかれば明るさ𝑦もわかる！明るさ 𝑦 統計の専門用語みたいなもの明るさ𝑦を説明するのはワット数𝑥である 𝑥は説明する変数＝説明変数｜独立変数｜原因変数 𝑦は知りたい変数＝被説明変数｜従属変数｜目的変数ワット 𝑥 04 回帰分析 7

回帰分析でも 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 例｜身長𝑥がわかると体重𝑦が大体予測できる体重体重𝑦を説明するのは身長𝑥であるあるいは体重𝑦は身長𝑥で大体説明できる説明変数は身長，被説明変数は体重この「説明する」という表現は割とよく使われる表現なので慣れてください身長 04 回帰分析 8

回帰係数の意味 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 𝛽1 （傾き） 𝛽1 体重 1 𝑥の値が1大きくなると 𝑦の予測値（平均的な傾向）はどれだけ大きくなるか例右の回帰直線が𝑦 = 0.7𝑥 − 50 だとすると身長（𝑥）が1cm大きくなるごとに体重の予測値が0.7kg大きくなる ▶160cmの人と170cmの人では平均で 7kgの差がある，と考えることができる身長 04 回帰分析 9

10.

回帰係数の意味 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 𝛽0 （切片）体重 𝑥の値が0のとき 𝑦 の予測値（平均的な傾向）はいくつになるか例右の回帰直線が𝑦 = 0.7𝑥 − 50 とすると身長が0cmの人の体重の予測値は -50kgであるもちろん身長が0の人や体重がマイナスの人は存在しないので，この場合切片には何の意味も無い身長 04 回帰分析 10

11.

（おまけ）切片の使い方切片に意味をもたせるためには，中心化する体重【中心化】平均が0になるようにするため，平均値を引くこと ▶中心化した後の値は「平均値からの偏差」を表す 𝛽0 このとき切片𝛽0 は「平均値からの偏差が0＝平均値の人での𝑦 の予測値」になる 0 04 回帰分析身長（平均値からの偏差） 11

12.

「それっぽい直線」とは？赤い線が点線よりも「それっぽい」…なぜそう思うのか？各データと近いから体重 ※一個一個の点について見ると赤い線より近い線があるかもしれないが全データで「データと直線の距離」の平均をとってみると，赤い線が一番小さい「データと直線の距離」の平均が最小になる直線を求めたら良い！…のか？身長 04 回帰分析 12

13.

「回帰直線」は「平均値」である２変数だから二次元関係を一本の直線に代表させたもの回帰直線はフワッとしただいたい同じこと体重平均値はデータを一つの値に代表させたもの１変数だから一次元考え方としては代表値は「全体的にその値からの偏差が小さくなる値」のことである回帰直線も「全体的にその値からの偏差が小さくなる直線」のことである身長 04 回帰分析 13

14.

回帰式を正確に書くとイコールに戻します 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 ▶ 「大体」の予測値 + 予測とのズレ体重例）右の回帰直線が 𝑦 = −50 + 0.7𝑥 とすると 𝑦 𝑥, 𝑦 = (170,75)の人がいた場合 75 𝛽0 + 𝛽1 𝑥𝑖 = −50 + 0.7 × 170 = 69 69 6 𝑒𝑖 = 6 𝑦𝑖 = 69 + 6 = 75 予測とのズレが一番小さくなる直線が最も「それっぽい」と言えそうだ！ 170 身長 𝑥 04 回帰分析 14

15.

最小二乗法 Ordinary Least Squares 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 𝑦𝑖 = 「大体」の予測値 + 予測とのズレ体重予測とのズレ 𝑦 回帰直線の目的は変数 𝑥 によって変数 𝑦 を予測すること ▶ 予測のズレは縦方向の距離で表れる ▶ このズレを最小にしたい 𝑒𝑖 を「残差」として考える分散な考え方「分散が小さいほど平均値周辺にある」「残差」の二乗の和が最小になる直線を計算するこれを最小二乗法と呼びますしたがって１変数の平均値の計算もやろうと思えば最小二乗法で求める事ができます（面倒だけど） 𝑥 身長 04 回帰分析 15

16.

最小二乗法を数式で回帰式 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 𝑛 𝑛 目的 ෍ 𝑒𝑖2 = ෍ 𝑦𝑖 − 𝛽0 + 𝛽1 𝑥𝑖 𝑖=1 2 を最小にする(𝛽0 , 𝛽1 )のペアを見つけ出す 𝑖=1 ▲ (𝛽0 , 𝛽1 ) のどちらについても二次関数 (𝛽0 , 𝛽1 ) のそれぞれについて偏微分した式がゼロになるところを探す２つの未知数に対して２つの方程式が立つ 𝑛 𝑛 −2 ෍ 𝑒𝑖 = 0 𝑖=1 𝑛 −2 ෍ 𝑥𝑖 𝑒𝑖 = 0 𝑖=1 𝑛 𝑛 連立方程式 𝑛 𝑛 𝑛 ෍ 𝑦𝑖 − ෍ 𝛽0 − ෍ 𝛽1 𝑥𝑖 = 0 ෍ 𝑦𝑖 − 𝑛𝛽0 − 𝛽1 ෍ 𝑥𝑖 = 0 𝑖=1 𝑖=1 𝑖=1 𝑛 𝑖=1 𝑛 𝑛 𝑛 𝑖=1 𝑛 ෍ 𝑥𝑖 𝑦𝑖 − ෍ 𝑥𝑖 𝛽0 − ෍ 𝛽1 𝑥𝑖2 = 0 ෍ 𝑥𝑖 𝑦𝑖 − 𝛽0 ෍ 𝑥𝑖 − 𝛽1 ෍ 𝑥𝑖2 = 0 𝑖=1 𝑖=1 𝑖=1 𝑖=1 04 回帰分析 𝑖=1 𝑖=1 16

17.

最小二乗法で計算してみる【問】以下の4つの点から，回帰直線を計算してみましょう 𝑦 (-1, 1) (3, 2) 𝑥 (2, -1) (-4, -2) 04 回帰分析 17

18.

最小二乗法で計算してみる【問】以下の4つの点から，回帰直線を計算してみましょう Step 1 回帰式を立てる 𝑦 今回の場合，直線（一次関数）を探すので，回帰式は 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 (-1, 1) となり，この(𝛽0 , 𝛽1 )の組を探していく (3, 2) 𝑥 (2, -1) (-4, -2) 04 回帰分析 18

19.

最小二乗法で計算してみる【問】以下の4つの点から，回帰直線を計算してみましょう Step 2 回帰式による予測とのズレを計算する 𝑦 𝑦𝑖 ≈ 𝛽0 + 𝛽1 𝑥𝑖 に実際に値を当てはめたときのズレ 𝑒𝑖 は回帰直線 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 （𝛽0 , 𝛽1 の値はまだ不明） (-1, 1) (2, 𝛽0 + 2𝛽1 ) (3, 2) (2, -1)の点 𝑥 −𝛽0 − 2𝛽1 − 1 (2, -1) の場合予測値：𝑦 = 𝛽0 + 2𝛽1 (上の式に𝑥を当てはめただけ) 実際：𝑦 = −1 ▶予測とのズレ𝑒𝑖 は −1 − 𝛽0 + 2𝛽1 = −𝛽0 − 2𝛽1 − 1 (-4, -2) 04 回帰分析 19

20.

最小二乗法で計算してみる【問】以下の4つの点から，回帰直線を計算してみましょう Step 3 すべての点と回帰直線のズレを計算する 𝑦 同じようにすべての点とのズレを計算すると (-1, 1) (-4, 𝛽0 − 4𝛽1 ) (2, 𝛽0 + 2𝛽1 ) (3, 2) (3, 𝛽0 + 3𝛽1 ) 𝑥 (-1, 𝛽0 − 𝛽1 ) (2, -1) 点予測値ズレ (2, -1) 𝛽0 + 2𝛽1 −𝛽0 − 2𝛽1 − 1 (3, 2) 𝛽0 + 3𝛽1 −𝛽0 − 3𝛽1 + 2 (-1, 1) 𝛽0 − 𝛽1 −𝛽0 + 𝛽1 + 1 (-4, -2) 𝛽0 − 4𝛽1 −𝛽0 + 4𝛽1 − 2 となる。 (-4, -2) 04 回帰分析 20

21.

最小二乗法で計算してみる【問】以下の4つの点から，回帰直線を計算してみましょう Step 4 ズレの二乗和を計算する 𝑦 (-1, 1) (-4, 𝛽0 − 4𝛽1 ) (2, 𝛽0 + 2𝛽1 ) (3, 2) (3, 𝛽0 + 3𝛽1 ) 𝑥 (-1, 𝛽0 − 𝛽1 ) 点ズレズレの二乗 (2, -1) −𝛽0 − 2𝛽1 − 1 𝛽0 + 2𝛽1 + 1 2 (3, 2) −𝛽0 − 3𝛽1 + 2 𝛽0 + 3𝛽1 − 2 2 (-1, 1) −𝛽0 + 𝛽1 + 1 𝛽0 − 𝛽1 − 1 (-4, -2) −𝛽0 + 4𝛽1 − 2 𝛽0 − 4𝛽1 + 2 2 2 計算すると，二乗和は (2, -1) 4𝛽02 + 30𝛽1 2 − 22𝛽1 + 10 (-4, -2) となる。 04 回帰分析 21

22.

最小二乗法で計算してみる【問】以下の4つの点から，回帰直線を計算してみましょう Step 5 二乗和を最小化する 𝛽0 , 𝛽1 の値を求める 𝑦 𝑓 𝛽0 , 𝛽1 = 4𝛽02 + 30𝛽1 2 − 22𝛽1 + 10 を偏微分する (-1, 1) (-4, 𝛽0 − 4𝛽1 ) (2, 𝛽0 + 2𝛽1 ) 上の式を 𝛽0 , 𝛽1 でそれぞれ微分してゼロとおくと (3, 2) (3, 𝛽0 + 3𝛽1 ) 𝑥 (-1, 𝛽0 − 𝛽1 ) 8𝛽0 = 0 ቊ 60𝛽1 − 22 = 0 これを満たす時に二乗和は最小値になるので， (2, -1) (-4, -2) 𝛽0 , 𝛽1 = 0, 04 回帰分析 11 30 となる。 22

23.

式展開連立方程式をていねいに解いてみる 𝑛 𝑛 𝑛 ෍ 𝑦𝑖 − 𝑛𝛽0 − 𝛽1 ෍ 𝑥𝑖 = 0 𝑛 𝑖=1 𝑛 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑛 𝑖=1 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑦ത σ𝑛𝑖=1 𝑥𝑖 𝛽1 = 𝑛 σ𝑖=1 𝑥𝑖2 − 𝑥ҧ σ𝑛𝑖=1 𝑥𝑖 𝑛 𝑛 𝑛 ෍ 𝑥𝑖 𝑦𝑖 − 𝑦ത ෍ 𝑥𝑖 + 𝛽1 𝑥ҧ ෍ 𝑥𝑖 − 𝛽1 ෍ 𝑥𝑖2 = 0 𝑖=1 𝛽1 の式に整理を下の式に代入 𝑛 ෍ 𝑥𝑖 𝑦𝑖 − 𝛽0 ෍ 𝑥𝑖 − 𝛽1 ෍ 𝑥𝑖2 = 0 𝑖=1 𝑛 1 1 𝛽0 = ෍ 𝑦𝑖 − 𝛽1 ෍ 𝑥𝑖 = 𝑦ത − 𝛽1 𝑥ҧ 𝑛 𝑛 𝑖=1 𝑖=1 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 分子と分母を − 𝑦ത𝑥ҧ 𝑛 𝛽1 = 𝑛 σ𝑖=1 𝑥𝑖2 𝑛で割る − 𝑥ҧ 𝑥ҧ 𝑛 04 回帰分析 𝑖=1 次ページに続く 23

24.

式展開の続き (因数分解するための変形) −𝑦ത 𝑥ҧ =− −𝑦ത𝑥ҧ − 𝑦ത𝑥ҧ + 𝑦ത𝑥ҧ 𝑛 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 1 − 𝑦ത 𝑥ҧ = ෍ 𝑥𝑖 𝑦𝑖 − 𝑦ത 𝑥ҧ − 𝑦ത 𝑥ҧ + 𝑦ത 𝑥ҧ 𝑛 𝑛 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑦ത𝑥ҧ 𝑛 𝛽1 = 𝑛 σ𝑖=1 𝑥𝑖2 − 𝑥ҧ 2 𝑛 1 𝑛 σ𝑖=1(𝑥𝑖 − 𝑥)(𝑦 ҧ 𝑖 − 𝑦) ത 𝑛 = 1 𝑛 σ𝑖=1 𝑥𝑖 − 𝑥ҧ 2 𝑛 𝑖=1 𝑛 𝑛 (第2,3項の𝑥,ҧ 𝑦を片方ずつだけ戻す) ത 𝑛 1 1 1 = ෍ 𝑥𝑖 𝑦𝑖 − ෍ 𝑦𝑖 𝑥ҧ − ෍ 𝑥𝑖 𝑦ത + 𝑦ത𝑥ҧ 𝑛 𝑛 𝑛 = 𝑛 𝑛 𝑖=1 𝑖=1 1 1 −𝑦ത 𝑥ҧ − 𝑦ത 𝑥ҧ = − ෍ 𝑦𝑖 𝑥ҧ − ෍ 𝑥𝑖 𝑦ത 𝑛 𝑛 𝑖=1 𝑖=1 𝑖=1 𝑛 𝑛 𝑛 𝑛 𝑛 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 1 1 1 1 1 ҧ 𝑖 − 𝑦) ത ෍ 𝑥𝑖 𝑦𝑖 − ෍ 𝑦𝑖 𝑥ҧ − ෍ 𝑥𝑖 𝑦ത + ෍ 𝑦ത 𝑥ҧ = ෍(𝑥𝑖 − 𝑥)(𝑦 𝑛 𝑛 𝑛 𝑛 𝑛 𝑛 σ𝑛𝑖=1 𝑥𝑖2 1 − 𝑥ҧ 2 = ෍ 𝑥𝑖2 − 2𝑥ҧ 2 + 𝑥ҧ 2 𝑛 𝑛 𝑖=1 𝑛 𝑛 −𝑥ҧ 2 = −2𝑥ҧ 2 + 𝑥ҧ 2 𝑛 𝑛 1 𝑥ҧ = ෍ 𝑥𝑖2 𝑛 1 1 1 = ෍ 𝑥𝑖2 − 2 ෍ 𝑥𝑖2 𝑥ҧ + ෍ 𝑥ҧ 2 𝑛 𝑛 𝑛 𝑖=1 𝑛 = 𝑖=1 𝑖=1 𝑖=1 (第2項の𝑥を一個だけ戻す) ҧ 𝑖=1 𝑖=1 𝑛 1 1 ෍ 𝑥𝑖2 − 2𝑥𝑖2 𝑥ҧ + 𝑥ҧ 2 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 𝑛 (因数分解するための変形) 2 𝑛 1 𝑥ҧ 2 = ෍ 𝑥ҧ 2 （同じシグマの中に入れるための変形） 𝑛 𝑖=1 04 回帰分析 24

25.

最小二乗法の解連立方程式を解くと 𝛽0 = 𝑦ത − 𝛽1 𝑥ҧ 1 𝑛 σ𝑖=1(𝑥𝑖 − 𝑥)(𝑦 ҧ 𝑖 − 𝑦) ത 𝑥と𝑦の共分散 𝑛 𝛽1 = = 1 𝑛 𝑥の分散 σ𝑖=1 𝑥𝑖 − 𝑥ҧ 2 𝑛 実際のところ解を覚える必要はない，と思いますどうせパソコンが計算してくれるしこの先もっと複雑になったときにいちいち解を覚えるわけにもいかないしとりあえずまずは p. 22までで説明した「考え方」を理解してください 04 回帰分析 25

26.

同じ回帰直線でも… 回帰の精度が異なるかもしれない【精度が低いとき】【精度が高いとき】 𝑦 𝑦 𝑥 𝑥 ※２つの図では，回帰直線の傾き（回帰係数）は変わっていない 04 回帰分析 26

27.

相関係数はからまでの間の値になるということはっておいてください回帰の精度と相関 =0 𝑥 回帰直線を取り除くと 𝑥 = 𝑥 = 0.5 𝑥 相関係数は必しも【精度が高いとき】 𝑦 1 資料03 p. 22 相関係数「相関 𝑥 =1 相関を表しているわけではない【精度が低いとき】）相関係数＝共分散というだけです（＝相関が高いとき = 0.5 直線の相関関係もありました＝相関が低いときはとのちょうど中間というわけではない 𝑦 」たいな解はできません変数の 𝑥 計 𝑥 相関係数と回帰の精度には何らかの関係がありそうだ！ 04 回帰分析 27

28.

回帰の精度を考えるデータを予測値と誤差に分解する 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 𝑦𝑖 = 「大体」の予測値 + わいはっと予測とのズレ 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 と表記します 𝑦𝑖 = 𝑦ො𝑖 + 𝑒𝑖 あるいは 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 精度が高いということはその1 𝑒𝑖 の絶対値が小さいあるいはその2 𝑦𝑖 と 𝑦ො𝑖 の値が近いデータ全体で見るとデータ全体で見ると 𝑒𝑖 の分散が小さいならば回帰の精度は高いと言える 𝑦𝑖 と 𝑦ො𝑖 の相関が高いならば回帰の精度は高いと言える 04 回帰分析 28

29.

決定係数その1に向けて変数のばらつきの要因を分解するという考え方「大体」の予測値 𝑦𝑖 = = 平均値 + 予測値と平均値の差 + 予測とのズレ + 予測とのズレ体重 𝑦 75 69 例）右の回帰直線が 𝑦 = −50 + 0.7𝑥とする 6 9 (𝑦) ത 60 𝑥𝑖 , 𝑦𝑖 = (170,75)の人がいた場合 𝑦 の平均値 𝑦ത が60だとすると 𝑦𝑖 は平均値 𝑦ത よりも15大きい p. 14 𝑦𝑖 = 69 + 6 = 60 + 9 + 6 = 75 170 身長 𝑥 04 回帰分析 29

30.

決定係数その1に向けて変数のばらつきの要因を分解するという考え方 𝑦𝑖 = = 「大体」の予測値平均値 + 予測値と平均値の差 + 予測とのズレ + 予測とのズレ 𝑦𝑖 = 𝑦ො𝑖 + 𝑒𝑖 = 𝑦ത + 𝑦ො𝑖 − 𝑦ത + 𝑒𝑖 回帰の精度を考えるデータ全体で見るとデータを予測値と誤差に分解する 𝑦𝑖 = の分散 = 「大体」の予測値 + 予測とのズレ「大体」の予測値の分散 + 予測とのズレの分散平均値予測値と 0 + 1 𝑥 と表記します + =平均値の差 + 予測とのズレ= の分散の分散精度が高いということはそのの絶対値が小さいデータ全体で見るとの分散が小さいならば回帰の精度は高いと言える 𝑣 𝑦𝑖 = 𝑣 𝑦ො𝑖 + 𝑣 𝑒𝑖 + あるいはの分散 = =𝑣(𝑦) ത + 𝑣 𝑦ො𝑖 − 𝑦ത + 𝑣(𝑒𝑖 ) これが小さいほどそのあるいはとの値が近いデータ全体で見ると回帰の精度は高いとの相関が高いならば回帰の精度は高いと言える 04 回帰分析 30

31.

決定係数その1に向けて式を整理する当然これは０ 𝑦𝑖 = の分散 = 平均値 + の分散予測値と平均値の差 + 予測とのズレの分散の分散予測値と平均値の差 + 予測とのズレの分散の分散 𝑣 𝑦𝑖 = 𝑣(𝑦) ത + 𝑣 𝑦ො𝑖 − 𝑦ത + 𝑣(𝑒𝑖 ) 𝑣 𝑦𝑖 = 𝑣 𝑦ො𝑖 − 𝑦ത + 𝑣(𝑒𝑖 ) 𝑛 分散を分解するという考え方は統計学全体でもかなり重要なこと 04 回帰分析 1 ෍ 𝑦𝑖 − 𝑦ത 𝑛 𝑖=1 𝑛 2 1 = ෍ 𝑦ො𝑖 − 𝑦ത 𝑛 𝑖=1 𝑛 1 2+ ෍ 𝑦 −𝑦 ො𝑖 𝑖 𝑛 𝑖=1 31 2

32.

（余談）なぜ「ばらつき（分散）」で考えるのか？基本的に社会科学は「個体差」に関心をもちがち個体差のい世界個体差のある世界この世界では，全ての人間は18歳のときにこの世界では，18歳のときの体重は必ず体重が60kgになります。人によります。別・食生活・親の遺伝などあらゆる要素に関係なく必どんな要因が体重に関係しているのか？ 04 回帰分析 32

33.

（余談）なぜ「ばらつき（分散）」で考えるのか？「個体差」の要因はさまざま体重のばらつきかく分解すると身長の違い国籍の違い別の違い「神の視点」があるならば全ての要因が見えるのでしょう（例｜シミュレーションゲーム）親の体重の違い食生活の違い学校までの距離の違い習い事の違い 04 回帰分析好きな食べ物の違い 33

34.

（余談）なぜ「ばらつき（分散）」で考えるのか？シンプルに考えてみる実際にはこんなにシンプルではいですが，イメージとして考えてみます Aさん 75kg 人間の平均 60kg 別男 +10 170cm +9 身長野菜が好き -5 好きな食べ物日頃の運動あまり運動しない +3 etc. 40 50 60 04 回帰分析 70 80 体重 34

35.

（余談）なぜ「ばらつき（分散）」で考えるのか？シンプルに考えてみる実際にはこんなにシンプルではいですが，イメージとして考えてみます Bさん 50kg 人間の平均 60kg 別女身長 153cm -3 -10 好きな食べ物肉が好き +10 日頃の運動よく運動する -2 etc. 40 50 60 04 回帰分析 70 80 体重 35

36.

（余談）なぜ「ばらつき（分散）」で考えるのか？変数が多すぎるので身長だけ取り出してみる人間の平均 60kg 身長 153cm -3 170cm +9 その他諸々 -7 etc. Bさん 40 個人の体重＝その他諸々 +6 50kg 平均値＋ 60 70 Aさん 80 体重 75kg 身長で説明できる変動 04 回帰分析＋その他の要因による変動 36

37.

（余談）なぜ「ばらつき（分散）」で考えるのか？回帰直線に置き換えてみると個人の体重＝ 𝑦𝑖 = 平均値＋身長で説明できる変動＋その他の要因による変動 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 （余談）なぜ「ばらつき（分散）」で考えるのか？体重 𝑦 変数が多すぎるので身長だけ取り出してみる 75 人間の平均 6 69 身長その他諸々 9 60 57 -3 さん (𝑦) ത -7 その他諸々さん 50 平均値 153 169 身長身長で説明できる変動その他の要因による変動回帰分析 𝑥 04 回帰分析 37 体重

38.

説明変数の役割と「ばらつき」説明変数によって「よくわからないばらつき」が減っている説明変数のない回帰分析 𝑦𝑖 − 𝑦ො𝑖 = 𝑒𝑖 𝑦𝑖 0 𝑦ො𝑖 = 𝛽0 𝑦𝑖 = 𝛽0 + 𝑒𝑖 𝑥𝑖 𝑥𝑖 04 回帰分析 38 ばらつき

39.

説明変数の役割と「ばらつき」説明変数によって「よくわからないばらつき」が減っている説明変数のある回帰分析 𝑦𝑖 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 𝑦𝑖 − 𝑦ො𝑖 = 𝑒𝑖 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 0 𝑥𝑖 𝑥𝑖 04 回帰分析 39 ばらつき

40.

決定係数「大体」の予測値 + その1 予測とのズレ 0 + 1𝑥 この電球はなんでこの明るさになるのか説明してみ？ワットだからですね例｜𝑥が「電球のワット」が「明るさ」だと = + 1 𝑥 と表記します = + = あるいはワット数𝑥がわかれば明るさもわかる！の絶対値が小さい（ほぼ）100%決定している統計の専門用語みたいなもの精度が高いということはその電球の明るさはワット数によって明るさ説明変数によって被説明変数がどの程度決定するか 0 おなじことあるいは明るさをそのとのはワット数𝑥であるの値が近い 𝑦ො の分散が大きいならば回帰の精度は高いと言える回帰の精度は高いと言えるは知りたい変数＝｜従属変数｜目的変数データ全体で見るとデータ全体で見るとの分散が小さいならば回帰の精度は高いと言える 𝑖 𝑥は説明する変数＝｜独立変数｜原因変数との相関が高いならば回帰分析予測値と 𝑦𝑖 = 平均値の差 + 予測とのズレの分散の分散の分散ワット 𝑥 回帰分析 𝑛 1 ෍ 𝑦𝑖 − 𝑦ത 𝑛 𝑣 𝑦𝑖 = 𝑣 𝑦ො𝑖 − 𝑦ത + 𝑣(𝑒𝑖 ) 𝑖=1 𝑛 σ ො𝑖 − 𝑦ത 𝑖=1 𝑦 2 𝑟 = 𝑁 σ𝑖=1 𝑦𝑖 − 𝑦ത 2 2 =1− 04 回帰分析 𝑛 2 1 = ෍ 𝑦ො𝑖 − 𝑦ത 𝑛 𝑖=1 𝑛 1 2+ ෍ 𝑦 −𝑦 ො𝑖 𝑖 𝑛 𝑖=1 2 σ𝑁 𝑒 𝑖=1 𝑖 σ𝑁 ത 𝑖=1 𝑦𝑖 − 𝑦 2 40 2

41.

決定係数あるいはそのその2 との値が近いデータ全体で見ると 𝑟 2 = 𝑟𝑦,2 𝑦ො との相関が高いならば回帰の精度は高いと言える回帰分析 𝑦𝑖 二乗しているのは前ページの決定係数と意味を揃えるためです切片0, 傾き1の一次関数 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 𝑥𝑖 𝑦𝑖 𝑦𝑖 = 𝑦ො𝑖 𝑦ො𝑖 04 回帰分析 41

42.

決定係数と相関係数の関係最小二乗法の解 𝛽0 = 𝑦ത − 𝛽1 𝑥ҧ 1 𝑛 σ𝑖=1(𝑥𝑖 − 𝑥)(𝑦 ҧ 𝑖 − 𝑦) ത 𝐶𝑜𝑣𝑥,𝑦 𝑛 𝛽1 = = 1 𝑛 𝑣𝑥 σ𝑖=1 𝑥𝑖 − 𝑥ҧ 2 𝑛 式変形してみると 𝑛 σ ො𝑖 − 𝑦ത 𝑖=1 𝑦 2 𝑟 = 𝑁 σ𝑖=1 𝑦𝑖 − 𝑦ത 2 2 σ𝑛𝑖=1 𝛽0 + 𝛽1 𝑥𝑖 − 𝛽0 + 𝛽1 𝑥ҧ 2 = 𝑛 ⋅ 𝑣𝑦 𝑛 𝑛 𝑛 𝛽12 σ𝑛𝑖=1(𝑥𝑖 − 𝑥)ҧ 2 ෍(𝛽1 𝑥𝑖 − 𝛽1 𝑥)ҧ 2 = ෍ 𝛽12 (𝑥𝑖 − 𝑥)ҧ 2 = 𝛽12 ෍(𝑥𝑖 − 𝑥)ҧ 2 = 𝑖=1 𝑖=1 𝑖=1 𝑛 ⋅ 𝑣𝑦 2 σ𝑛 𝐶𝑜𝑣𝑥,𝑦 ҧ 2 𝑖=1(𝑥𝑖 − 𝑥) = 𝑛 ⋅ 𝑣𝑦 𝑣𝑥2 2 ⋅𝑛⋅𝑣 𝐶𝑜𝑣𝑥,𝑦 𝑥 = 𝑣𝑥2 ⋅ 𝑛 ⋅ 𝑣𝑦 = 2 𝐶𝑜𝑣𝑥,𝑦 𝑣𝑥 ⋅ 𝑣𝑦 = 𝐶𝑜𝑣𝑥,𝑦 𝑣𝑥 𝑣𝑦 2 2 = 𝑟𝑥,𝑦 04 回帰分析 2 𝑟 2 = 𝑟𝑦,2 𝑦ො = 𝑟𝑥,𝑦 42

43.

「回帰」と「相関」の関係相関の高さは回帰の精度＝決定係数と同じこと【相関が高いとき】 𝑦 𝑦 【相関が低いとき】 𝑥 𝑥 𝑥の値が一つ決まった時，相関が高いほど𝑦の予測の幅は狭くなる 𝑥の値が一つ決まった時，相関が低いと𝑦の予測の幅は広くなる ※２つの図では，回帰直線の傾き（回帰係数）は変わっていない 04 回帰分析 43

44.

「回帰」と「相関」の関係相関係数 𝑟𝑥𝑦 と回帰直線の傾き 𝛽1 の間には 𝑟𝑥,𝑦 = 𝛽1 𝑦 【の標準偏差が小さいとき】 𝑦 𝑠𝑥 𝑠𝑦 の関係がある【の標準偏差が大きいとき】 𝑥 𝑥 回帰直線の傾きが変わらない場合でも変数𝑦の標準偏差が大きいほど相関係数は小さくなっている 04 回帰分析 44

45.

「回帰」と「相関」の違い 𝑥と𝑦を入れ替えると，相関は変わらないが，回帰は変わるそのため，回帰を行う場合には散の 𝑥 と 𝑦 はどちらかに決まることが多いのです ▶ 回帰の目的は「変数 𝑥 によって変数 𝑦 の値を予測すること」身長体重縦横入れ替え身長体重 ※２つの図では，回帰直線の傾きは変わるが，相関係数＝予測の精度は変わらない 04 回帰分析 45

46.

𝑥とを入れ替えると，相関は変わらないが，回帰は変わる【注意】回帰分析は「因果関係」ではない本そのため，回帰を行う場合には散の 𝑥 とはどちらかに決まることが多いのです ▶ 回帰の目的は「変数 𝑥 によって変数の値を予測すること」的には散布図に線を引いているだけ縦横入れ替え「データに一番合う線を探します」 xとyを入れ替えると直線は変わる２つの図では，回帰直線の傾きは変わるが，相関係数＝予測の精度は変わらない ▶ 回帰係数を比べても「x→yよりもy→xの方が良い」的なことは言えない回帰分析予測は因果とは関係にやって良い回帰直線による予測はあくまでも「手元の変数をフル活用して予測する」資料03 p. 31 例｜食事量と体重の因果関係平均摂取カロリーで体重を予測するたくさんたべるふとる「太る」という結果より前に「食べる」という原因が必ある体重から「どれだけ食べられるか」を予測する 04 回帰分析 46

47.

もう少し複雑な回帰分析説明変数は多いほうが良いかもね p. 36 人間の平均 60kg より 170cm +9 153cm -3 身長別女 etc. 男 -10 その他諸々 -4 その他諸々 +3 40 Bさん 60 70 50kg ＋ 80 Aさん体重 75kg 身長で説明できる変動個人の体重＝平均値＋ +10 ＋その他の要因による変動別で説明できる変動 04 回帰分析 47

48.

重回帰分析 p. 28 説明変数が２個以上ある回帰分析説明変数が１個の回帰分析を単回帰分析と呼ぶこともあります 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + ⋯ + 𝑒𝑖 𝑦𝑖 = 「大体」の予測値 + 予測とのズレわいはっと 𝑦𝑖 = 𝑦ො𝑖 + 𝑒𝑖 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + ⋯と表記 𝑛 p. 16 𝑖=1 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 𝑛 目的 ෍ 𝑒𝑖2 = ෍ 𝑦𝑖 − 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + ⋯ 最小二乗法あるいは 2 を最小にする(𝛽0 , 𝛽1 , 𝛽2 , ⋯ )の組を見つけ出す 𝑖=1 ▲ (𝛽0 , 𝛽1 , 𝛽2 , ⋯ )のいずれについても二次関数 (𝛽0 , 𝛽1 , 𝛽2 , ⋯ )のそれぞれについて偏微分した式がゼロになるところを探す（説明変数の数）+1個の未知数に対して（説明変数の数）+1個の方程式が立つ 04 回帰分析 48

49.

重回帰分析のイメージわかりにくいと思いますが… 一応平面より上の点を青，平面より下の点を赤で表しています 2変数なら3D散布図で表せる（重）回帰平面を求めている 𝑥1 , 𝑥2 が大きいほど 𝑦 も大きい ▶ 回帰係数はどちらも正の値最小二乗法 ▶ 𝑦 座標方向でのズレを評価 04 回帰分析 49

50.

「個体差」の要因はさまざま説明変数を増やすということ p. 33 体重のばらつき身長の違い国籍の違い別の違い単回帰のとき親の体重の違い食生活の違い学校までの距離の違い習い事の違い個人の体重＝平均値＋身長で説明できる変動＋「神の視点」があるならば全ての要因が見えるのでしょう（例｜シミュレーションゲーム）かく分解すると好きな食べ物の違い回帰分析その他の要因による変動身長以外の全ての要因による変動が「その他」として扱われている国籍による変動重回帰のとき（親の体重による変動別による変動さらにその他の要因による変動別を追加）身長で説明できる変動個人の体重＝平均値＋＋＋その他の要因による変動別で説明できる変動国籍による変動親の体重による変動別による変動 04 回帰分析さらにその他の要因による変動 50

51.

重回帰分析の決定係数単回帰分析のときと同じ 2 さすがに𝑟 2 = 𝑟𝑥,𝑦 にはなりません 𝑛 σ ො𝑖 − 𝑦ത 𝑖=1 𝑦 2 𝑟 = 𝑁 σ𝑖=1 𝑦𝑖 − 𝑦ത 𝑦𝑖 の分散＝ 2 σ𝑁 𝑒 𝑖=1 𝑖 2 2 =1− σ𝑁 ത 𝑖=1 𝑦𝑖 − 𝑦 説明変数で説明できる変動＋ 2 = 𝑟𝑦,2 𝑦ො 𝑟𝑦,𝑦ො のことを重相関係数と呼びます説明変数で説明できない変動説明変数を増やすと必決定係数は大きくなるってことは，説明変数は手当たり次第に入れた方が良いんですね！？ 04 回帰分析 51

52.

手当たり次第に入れてみる決定係数は対に大きくなる例｜以下のデータで回帰分析ふつうにやると 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 𝑟 2 = 0.64 どうやら直線的な相関関係 04 回帰分析 52

53.

手当たり次第に入れてみる決定係数は対に大きくなる 𝑥 2 が常に意味ということではない ▶場合によっては入れたほうが良いこともある例：U字の相関の場合は二乗は入れるべき病気率無意味な変数として 𝑥 2 を加えると体重例｜以下のデータで回帰分析意味な変数として 𝑥 2 を加える 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 𝑟 2 = 0.66 ※二次元プロットで表現できるように累乗を使用していきます 04 回帰分析 53

54.

手当たり次第に入れてみる決定係数は対に大きくなるが同じように無意味な変数として 𝑥 3 , 𝑥 4 を入れていくと 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 𝑥2 𝑟 2 = 0.64 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 + 𝛽3 𝑥𝑖3 + 𝛽4 𝑥𝑖4 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 + 𝛽3 𝑥𝑖3 𝑥3 𝑟 2 = 0.66 𝑥4 意味な変数でも決定係数はどんどん増える 𝑟 2 = 0.68 𝑟2 = 1 04 回帰分析 54

55.

完璧なフィットだ… データへの当てはまりは完璧だが問 𝑥𝑖 = 11 の人の 𝑦 の値を予測してください 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 + 𝛽3 𝑥𝑖3 + 𝛽4 𝑥𝑖4 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 yの表示範囲を変えました 𝑟2 𝑟2 = 0.64 =1 これが外挿の難しいところでもあるわけです対こっちのほうが妥当な予測な気がする 04 回帰分析 55

56.

意味な説明変数の脅威意味な説明変数を入れると「手元のデータ」への当てはまりは良くなる一方で「未知のデータ」への当てはまりは悪くなってしまう (over-fitting) 身長で説明できる変動個人の体重＝平均値＋オッカムの剃刀（オッカムのかそり，英: Occam‘s razor，Oc ham’s razor）とは，「ある事柄を説明するためには，必要以上に多くを仮定するべきでない」とする指針。14 世紀の哲学者・神学者のオッカムが多用したことで有名になった。 (Wikipedia) ＋財布の中の１円玉の数で説明できる変動＋その他の要因による変動個人の体重の変動を説明する力は無いが決定係数は絶対に（わずかながら）増えてしまう追加しても決定係数がほぼ増えないような説明変数は入れないようにしよう 04 回帰分析 56

57.

回帰分析と連立方程式データが２つの場合 p. 3 回帰とはなんぞや【問】すべてのデータを通る直線を引きなさいデータが１つの場合データが２つの場合体重データが３つの場合体重データが１つの場合解が決まらない体重データが多い分には解は一つに決まる（最小二乗法で）一次関数 = 0 + 身長 1𝑥 身長 𝑥 この線をすべての点を通る線は引けないのですべてのデータに対して身長 𝑥 と呼ぶ回帰分析 𝑦1 = 𝛽0 + 𝛽1 𝑥1 ቊ 𝑦2 = 𝛽0 + 𝛽1 𝑥2 求めるパラメータ２つ(𝛽0 , 𝛽1 )に対して式も２つ ▶ これ以上説明変数は増やせない 04 回帰分析 57

58.

回帰分析と連立方程式データが３つの場合 𝑦1 = 𝛽0 + 𝛽1 𝑥11 + 𝛽2 𝑥21 ቐ𝑦2 = 𝛽0 + 𝛽1 𝑥21 + 𝛽2 𝑥22 𝑦3 = 𝛽0 + 𝛽1 𝑥31 + 𝛽2 𝑥32 求めるパラメータ３つ(𝛽0 , 𝛽1 , 𝛽2 )で式も３つ ▶ 説明変数は２個までしか使えないデータが 𝑛 個の場合式は 𝑛 個おける▶ 説明変数は 𝑛 − 1 個までしか使えない：パラメータは 𝛽0 , 𝛽1 ～𝛽𝑛−1 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 + 𝛽3 𝑥𝑖3 + 𝛽4 𝑥𝑖4 データが5個なので説明変数が4個で完全にフィット 04 回帰分析 58

59.

自由度調整（修正）済み決定係数説明変数を増やすと小さくなる項「説明変数の数の割に」決定係数が高いかを判断する 𝑟2 = 1 − 決定係数 • 「自由度」の意味 • －１の意味は今は視してください０ 2 σ𝑁 𝑖=1 𝑒𝑖 σ𝑁 ത 𝑖=1 𝑦𝑖 − 𝑦 2 2 𝑟𝑎𝑑𝑗 調整した決定係数 2 σ𝑁 𝑛−1 𝑒 𝑖=1 𝑖 =1− 𝑛 − 𝑘 − 1 σ𝑁 ത 𝑖=1 𝑦𝑖 − 𝑦 説明変数を増やすと大きくなる項 𝑟2 𝑦𝑖 の全変動説明変数で説明できる変動の割合 2 データの数 𝑛 説明変数の数 𝑘 1 説明変数で説明できない変動の割合 𝑛−1 倍 𝑛−𝑘−1 ０ 2 𝑟𝑎𝑑𝑗 04 回帰分析 1 59

60.

重回帰分析の回帰係数重回帰分析の回帰係数（傾き）を考える身長で説明できる変動個人の体重＝平均値＋＋＋その他の要因による変動別で説明できる変動 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + 𝑒𝑖 説明変数 𝑥1 , 𝑥2 が１大きくなったときに予測値 𝑦ො𝑖 がどれだけ大きくなるか実際には，もう少し厄介な話があるのです… 04 回帰分析 60

61.

説明変数間の相関関係説明変数間には相関があることが多い身長で説明できる変動個人の体重＝平均値＋＋＋その他の要因による変動別で説明できる変動体重の変動の一部は身長からでも体重からでも説明がつく身長と別には相関がある • • 身長でも体重の変動＝男性のほうが身長高め女性のほうが身長低め別でも説明できる変動身長でのみ説明できる変動＋その他の要因による変動別でのみ説明できる変動 04 回帰分析 61

62.

イメージ身長でも体重の変動＝別でも説明できる変動＋身長でのみ説明できる変動その他の要因による変動別でのみ説明できる変動 𝑦𝑖 の全変動【説明変数】身長と別身長でのみ 𝛽1 𝑥1𝑖 身長のみ別のみ別でのみ身長でも別でも説明できる変動 𝛽2 𝑥2𝑖 身長があれば説明できる変動その他の要因その他の要因 𝑒𝑖 その他の要因別があれば説明できる変動 04 回帰分析その他の要因 62

63.

改めて重回帰式を見ると 𝑥1 でも𝑥2 でも説明できる変動 𝑦ො𝑖 の変動＝ 𝑥1 でのみ説明できる変動＋その他の要因による変動 𝑥2 でのみ説明できる変動説明変数 𝑥1 が１大きくなり，同時に𝑥2 は変わらないときに予測値 𝑦ො𝑖 がどれだけ大きくなるか他の説明変数の影響を全無視した特定の説明変数の影響の大きさを表すため，重回帰分析ではとくに偏回帰係数 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + 𝑒𝑖 説明変数 𝑥2 が１大きくなり，同時に𝑥1 は変わらないときに予測値 𝑦ො𝑖 がどれだけ大きくなるか 04 回帰分析と呼ぶことがあります（普通に回帰係数でも伝わる）。 ※英語ではpartialという語に対応しています。「その説明変数のもつ影響力のうち，他の説明変数とは関係な部分だけの回帰係数」という意味で partialな回帰係数なわけです。なぜ「偏」という字をあてたかはわかりません。 63

64.

偏回帰係数をプロットで見る身長だけで体重を予測する単回帰式 ▶ 150cmと170cmを比べると 150cmでは女が，170cmでは男が多い青い点：男赤い点：女イメージ回帰係数は何を表しているか身長でも別でも説明できる変動 ▶ 身長だけでなく性別の影響を受けた値体重の変動その他の要因による変動身長でのみ説明できる変動別でのみ説明できる変動の全変動 p. 62 【説明変数】身長と別身長でのみ 1 𝑥1 身長のみ別のみ別でのみ身長でも別でも説明できる変動身長があれば説明できる変動その他の要因その他の要因 2 𝑥2 ※図はイメージです。 • 男性の方が身長大きめ • 同じ身長ならば男性の方が体重大きめという想定で仮想データを作りました。その他の要因別があれば説明できる変動その他の要因 04 回帰分析 64

65.

偏回帰係数をプロットで見る身長と連続変数の場合イメージしにくいかもしれませんが，同じ要領で「他の変数の値を固定したら」と考えています。別で体重を予測する単回帰式イメージ的には性別ごとにそれぞれ回帰各回帰直線は「男ではxが1増えるとyがどれだけ増えるか」「女イメージではxが1増えるとyがどれだけ増えるか」身長でも別でも説明できる変動体重の変動身長でのみ説明できる変動偏回帰係数の値はその他の要因による変動ちなにこのは別でのみ説明できる変動右のの2つの回帰直線の（重み付け）平均の全変動 p. 62 【説明変数】身長と別身長でのみ 1 𝑥1 身長のみ別のみ別でのみ身長でも別でも説明できる変動身長があれば説明できる変動その他の要因青い点：男赤い点：女その他の要因 2 𝑥2 その他の要因別があれば説明できる変動その他の要因 04 回帰分析 • 男性での身長の回帰係数はおよそ0.7 • 女性での身長の回帰係数はおよそ0.5 になるように作成しており， • 単回帰（前ページ）での回帰係数は1.3 • 重回帰での回帰係数はおよそ0.6 となります。 65

66.

偏回帰係数を3Dプロットから見る 𝑥2 = 80 p. 49 𝑥2 = 100 𝑥2 = 120 見る方向を変えると 𝑥1 の偏回帰係数 𝛽1 は赤い線の傾き（平面なのでどこでも同じ傾き） 04 回帰分析 66

67.

標準化回帰係数回帰係数は変数のスケールの影響を受ける回帰係数の意味 0 + 1𝑥 1 1 （傾き） 𝑥の値が大きくなるとの予測値（平均的な傾向）はどれだけ大きくなるか身長の単位を cmからmm （10倍）にすると「身長が1mm大きくなるごとに体重の予測値が0.07kg大きくなる」 ▼ 回帰係数は1/10になる体重右の回帰直線が = 0.7𝑥 50 だとすると身長（𝑥）が cm大きくなるごとに体重の予測値が大きくなる ▶ cmの人と cmの人では平均での差がある，と考えることができる身長回帰分析 04 回帰分析 67

68.

標準化回帰係数ということは，複数の説明変数の比較はできない？スケールで変化するなら「 𝑥1 より 𝑥2 のほうが𝑦ො𝑖 の値を大きく動かす」とか言えない？でも実際にはそういうこと言いたいときもある例｜身長をのばすには，牛乳をたくさん飲むよりもよく寝たほうが良い 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + 𝑒𝑖 身長睡眠時間 ▶ 𝛽1 > 𝛽2 ならば言えそう！飲んだ牛乳の量こういうときは単位を揃えないと ▶ 説明変数を標準化してあげたら良いのでは？例｜身長をのばすには，牛乳を１標準偏差多く飲むよりも，１標準偏差多く寝たほうがが良い 04 回帰分析 68

69.

標準化偏回帰係数説明変数を全て標準化したときに得られる回帰係数 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + 𝑒𝑖 𝑦𝑖 = 𝛽෨0 + 𝛽෨1 𝑧1𝑖 + 𝛽෨2 𝑧2𝑖 + 𝑒𝑖 標準化解釈は標準化得点に基く ▶ 説明変数 𝑥1 の値が1標準偏差大きくなったとき 𝑦ො𝑖 はどれだけ変動するか 𝑦𝑖 を標準化するかは場合による標準化しない場合：「𝑦ො𝑖 はどれだけ変動するか」（絶対的な値）標準化する場合：「𝑦ො𝑖 は標準偏差いくつ分変動するか」（相対的な値）比較に意味があるかは場合による「牛乳を１標準偏差多く飲む」と「１標準偏差多く寝る」は同じコストなのか？ 04 回帰分析 69

経営統計_04_回帰分析

Kyosuke Bunji

関連スライド

ベイズ統計_02_確率の基本とベイズの定理

ベイズ統計_01_イントロダクション

ベイズ統計_03_尤度

ベイズ統計_04_事前分布・基本的なベイズ推論(1)

ベイズ統計_07_マルコフ連鎖モンテカルロ法(2)

ベイズ統計_05_基本的なベイズ推論(2)

各ページのテキスト