1. 相関関係から因果関係へ

2. 単回帰分析
- 2.1 実証分析のプロセス
- 3.2 R を使った単回帰分析

3. 重回帰分析
- 3.1 重回帰分析の流れ
- 3.2 R を使った重回帰分析
- 3.3 jtools を使った分析結果の可視化
- 3.4 ggplot2 を使った分析結果の可視化
- 3.5 決定係数・・・回帰直線の当てはまりのよさ
- 3.6 決定係数に関するシミュレーション
- 3.7 回帰分析の前提と回帰モデルの妥当性診断

4. 平均への回帰

5. 宿題
- 宿題 1
- 宿題 2

References

1. 相関関係から因果関係へ

・相関関係を超えて因果関係を特定したい
条件付き確率に着目
・例)「一日一食」と「BMI 値」の関係を条件付き確率で表現する

\[ E[BMI値 |一日一食]\]

・次の様に定義する:
・BMI 値を Y
・一日一食に関する(確率)変数を X(一日一食 = 1, それ以外 = 0)
・この条件付き確率は次の様に表すことができる

\[ E[Y |X = x](ただし x = 0 または 1)\]

・もし一日一食のグループとそうでないグループの外的条件(健康状態など)が、特定の実験方法などによって同じなら、一日一食の BMI 値への因果効果は次のように表せる:

\[ E[Y |X = 1] - E[Y |X = 0]\]

・健康状態などの外的条件を同一にできない場合
→外的条件をコントロールする確率変数 C の取り得る値 c (= 共変量 or コントロール変数)を使って外的条件をそろえる。
・この場合の条件付き期待値は \(E[Y |X = x, c]\) となり、一日一食の BMI 値への因果効果は次の様に表せる:

\[ E[Y |X = 1, C = c] - E[Y |X = 0, C = c]\]

・説明変数と応答変数の関係のみをモデル化して条件付き期待値を調べる・・・単回帰分析
コントロール変数で外的条件を制御して説明変数と応答変数の因果効果を探る・・・重回帰分析

1. 単回帰分析

一つの説明変数 と一つの応答変数との「直線的な」関係を求め、説明変数から応答変数を推定する方法

条件付き期待値を 1 次関数としてモデル化し、誤差項を付けたものが単回帰モデル

・ある母集団における二つの変数 Y と X の間の関係が次のような母集団回帰関数 (PRF: population regression function) で表せるとする。


・Y: outcome (response variable, dependent variable)
・X: predictor (explanatory variable, independent variable)
\(α\)\(β\):パラメータ(係数: coefficients)
\(α\):X = 0 の時の Y の平均値
\(β\):X が 1 単位増加した時の Y の増加分の平均値
\(ε\):error term (disturbance)
   観測値が回帰直線から逸脱している程度を示す
・母集団のパラメータ(\(α\)\(β\))の値は通常わからない。

・集められたサンプルデータから推定 (estimate) する。
・母集団のパラメータ \(α\)\(β\) の推定値は \(\mathrm{\hat{α}}\)\(\mathrm{{α}}\)ハット)、 \(\mathrm{\hat{β}}\)\(\mathrm{{β}}\)ハット) と表す  

\[ \hat{Y} = \hat{α} + \hat{β}x \]

\(\mathrm{\hat{α}}\)\(\mathrm{\hat{β}}\) を使って回帰直線を描く。
・この回帰直線を使って、x に対応する予測値 \(\mathrm{\hat{Y}}\) (“predicted value”) を計算できる。
・通常、予測値 \(\mathrm{\hat{Y}}\)は観測値 \(\mathrm{{Y}}\)と完全に一致しない。
・予測値 \(\mathrm{\hat{Y}}\)は観測値 \(\mathrm{{Y}}\)との差 \(\mathrm{\hat{ε}}\)(エプシロン・ハット)で表す。

\[ \hat{ε} = Y - \hat{Y} \]

\(\mathrm{\hat{ε}}\) は「残差」(“residual” or “predictin error”) と呼ばれる。
・「残差」は母集団の error term の推定値 (estimate) なので、ハットを付ける。
・以上の関係を図で表すと次のようになる。