セレクションバイアス (Selection Bias
) の定義:
「原因として考えている変数(処置変数)と結果変数の関係が、想定する因果関係以外に存在する状況」
「処置の値」と「潜在的結果」の間に相関があるということ
= 「処置を受けた群」と「受けていない群」で、結果のベースラインに違いがある
= 例えば「通院する人」(処置を受けた群)と「通院しない人」(処置を受けない群)では、もともとの健康状態に違いがある
→ もともと健康状態が良い人は通院しない
→ もともと健康状態が悪い人が通院する
セレクションバイアスの問題点・ 調査・観察データを使った単純比較では、多くの場合、セレクションバイアスのせいで因果効果は特定できない
→ セレクションバイアスへの対処が、因果推論にとって最大の課題
セレクションバイアスの種類
(1) サンプルセレクション | 母集団からかけ離れたサンプルをとること |
(2) セルフセレクション | 個人が自らの意思に行動を選択した結果、ある行動を取る人たちのグループと取らない人たちのグループの間で特性の差が生じる |
サンプルセレクションの例:
知りたいこと:早稲田大学政経学部全ての学生の統計学の知識
母集団:早稲田大学政治経済学部の全ての学生
サンプル:「計量分析(政治)」を履修している学生
→ 「計量分析(政治)」を履修する学生はもともと計量分析に興味がある
→ このサンプルは母集団からかけ離れたサンプルである可能性が高い
対策:調査対象の選定に注意して、早稲田大学政経学部全ての学生から無作為にサンプルをとる
シンプソンのパラドクスとは、全体でみた解釈と部分で見た会社が異なるという現象
確認したいこと:「運動する」→「コレステロールが下がる」
x 軸に「運動量」、y 軸に「コレステロール値」をとってプロットしてみる
Source: Judea Pearl and others, 2016, Causal Inferences in Statistics
→ 運動量が多い人ほどコレステロール値が高い!
→ 常識と反する結果!
- ここで確かめたい因果関係は「運動する」→「コレステロール値が上がる(下がる)?」
- 「想定する因果関係以外の変数」として「年代」を考える
- 上のグラフを年代別に分けて表示してみる
Source: Judea Pearl and others, 2016, Causal Inferences in Statistics
データからわかる事実:
年代別に「運動量」と「コレステロール値」の関係を見ると負の相関がある
年代別に見ると「運動する」→ 「コレステロール値が下がる」関係がある
若い人はもともとコレステロール値が低い人が多い
年を経るにつれてコレステロール値が高くなる
→「年代」を考慮しないと「運動する」と「コレステロール値が上がる」ように見える
「運動をするかどうか」という判断は個人の判断
=> セルフセレクション (self-selection
)
3 つの変数(年齢、運動、コレステロール値)の関係を図示してみる
結論・全体で見ると、運動するとコレステロール値は上がる
・しかし、年代別に見ると、運動するほどコレステロール値は下がる
・「年代」のようなセレクションバイアスを考慮する必要がある
データからわかる事実:
通院しなかった人の方が健康(健康状態の平均値: 3.21 < 3.93
)
→ 常識と反する結果!
なぜ通院すると健康でなくなるのか?
これは因果関係なのか?
ここで想定する因果関係は「通院する」→「健康になる」
なぜ通院すると不健康になるのか?
【考えられる理由】:
(1) 病人から病気が感染してしまう
(2) 医療ミスのせいで健康を害する・・・等々
self-selection
)結論・ 病院に行ったからといって不健康になるわけではない
・ 「もともとの健康状態」を考慮すべき
まとめ・ 調査・観察データを単純比較しても因果効果はわからない
その理由 → セレクションバイアスがあるから
・ セレクションバイアスがあると正しい因果効果が推定できない
Rubin
の潜在的結果アップローチ通院しない |
通院する |
→ このことを変数 D
で表す
→ 変数 D
は「処置 (treatment
) 」 と呼ばれる
→ D= 0
なら「通院しない」
→ D= 1
なら「通院する」
(1) 最悪 |
(2) 悪い |
(3) 普通 |
(4) 良い |
(5) 最良 |
\(Y(1)\) | : その人が通院したときの、健康状況 |
\(Y(0)\) | : その人が通院しないときの、健康状況 |
D = 1
) についての \(Y(1)\) は観測できるD = 0
) についての \(Y(0)\) は観測できないD = 0
) についての \(Y(0)\) は観測できるD = 0
) についての \(Y(1)\) は観測できない\(Y(0)\) と \(Y(1)\) は同時には観察(= 測定)できない
個人 | : i = 1, 2, 3,…, N・・・個体を表す ID |
処置 (treatment) | : \(D_i ∈ {0, 1}\)・・・原因となる変数 |
処置を受けた(通院する):\(D_i = 1\) | |
処置を受けない(通院しない):\(D_i = 0\) | |
結果 (outcome) | : \(Y_i ∈ {1, 2, 3, 4, 5}\)・・・5 段階の健康状態 |
潜在的結果 (potential outcome) | : |
\[ Y_{i}\left(D_{i}\right)=\left\{\begin{array}{ll} Y_{i}(1) &\text { if } D_{i}=1(ここでは「通院する」)\\ Y_{i}(0) & \text { if } D_{i}=0(ここでは「通院しない」)\end{array}\right. \]
\[Y_i = D_iY_i(1) + (1-D_i)Y_i(0)\\= Y_i(0) + [Y_i(1) - Y_i(0)]D_i\] \(D_i = 0\) の時 \[Y_i = Y_i(0) + [Y_i(1) - Y_i(0)]D_i = Y_i(0)\] \(D_i = 1\) の時 \[Y_i = Y_i(0) + [Y_i(1) - Y_i(0)]D_i = Y_i(1)\]
ATE
」 処置効果の種類 | 略称 |
1. 個体処理効果 | ITE : individual treatment effect |
2. 平均処置効果 | ATE : average treatment effect |
3. 処置群における平均処置効果 | ATT : average treatment effect for the treated |
4. 統制群における平均処置効果 | ACT : average treatment effect for the control |
・ ランダム化比較実験 (Randomized Controlled Trial: RCT
) によって、ランダムに(無作為に)処置群と統制群が決まる場合
→ 2 群の期待値を単純比較すれば「平均処置効果 ATE
」を計算できる
・ しかしほとんどの「調査・観察データ」にはセレクションバイアスが含まれている
→ 単純比較するだけでは「平均処置効果 ATE
」を計算できない
個体処置効果 \(δ_i\): ITE (individual treatment effect)
個人レベルの処置効果(因果効果)
個体 \(i\) に関する因果効果 \(δ_i\)(デルタ)は「潜在的結果の差」を表す
\[δ_i ≡ Y_i(1) - Yi(0)\]
通院の事例を使うと、同一人物が「通院した場合の健康状況 \(Y_i(1)\)」 と「通院しなかった場合の健康状況 \(Y_i(0)\)」の差のこと
因果効果は同一個体の同一時点での「潜在的結果の差」によって定義される
観察される結果 \(Y_i\) は、二つの可能な行動 \(D_i\) の確率の関数なので、次のように表記できた
\[Y_i = Y_i(0) + [Y_i(1) - Y_i(0)]D_i\]
\[Y_i = Y_i(0) + [Y_i(1) - Y_i(0)]D_i\\ = Y_i(0) + δ_i(D_i)\]
\(Y_i(0)\) | : 結果のベースライン(5 段階の健康状態) |
\(δ_i\) | : 因果効果 |
\(D_i\) | : 処置の有無: \(D_i = 1\)なら通院、\(D_i = 0\)なら通院しない |
「潜在的結果の差」\(δ_i ≡ Y_i(1) - Yi(0)\)
通院の事例を使うと、同一人物が「通院した場合の健康状況 \(Y_i(1)\) 」 と「通院しなかった場合の健康状況 \(Y_i(0)\)」の差がゼロ (\(δ_i = 0 )\) なら、通院と健康状態の間には「因果効果なし」
他方、同一人物が「通院した場合の健康状況 \(Y_i(1)\) 」 と「通院しなかった場合の健康状況 \(Y_i(0)\)」の差がプラス (\(δ_i > 0 )\) なら「通院は健康状態を改善させるという因果効果がある」
また、同一人物が「通院した場合の健康状況 \(Y_i(1)\) 」 と「通院しなかった場合の健康状況 \(Y_i(0)\)」の差がマイナス (\(δ_i < 0 )\) なら「通院は健康状態を悪化させるという因果効果がある」
しかし、例えば2021年4月の一ヶ月間の間、菅総理大臣が毎週月曜日に東大病院に「通院する」ことと「通院しない」ことを同時に観察することはできない
菅総理が経験し観察できるのは「通院する」か「通院しないか」のどちらか片方だけ
→ つまり、
2 つの潜在的結果である \(Y_i(1) と Y_i(0)\) は同時に観察することはできない
→ 因果推論の根本問題 (Holland 1986)
処置 | 潜在的結果 | 潜在的結果 |
\(Yi(1)\) | \(Yi(0)\) | |
あり \(D_i = 1\) | \(Y_i\) として観察される | 観察できない |
なし \(D_i = 0\) | 観察できない | \(Y_i\) として観察される |
個体の因果効果は観察できない!
→ 個人の因果効果は観察できないので諦める
観察対象 | 潜在的結果 \(Y_i(1)\) | 潜在的結果 \(Y_i(0)\) | 個体レベルの因果効果 \(δ\) |
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(Y_1(1)-Y_1(0)\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(Y_2(1)-Y_2(0)\) |
3 | \(Y_3(1)\) | \(Y_3(0)\) | \(Y_3(1)-Y_3(0)\) |
. | . | . | . |
. | . | . | . |
\(i\) | \(Y_i(1)\) | \(Y_i(0)\) | \(Y_i(1)-Y_i(0)\) |
. | . | . | . |
. | . | . | . |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(Y_N(1)-Y_N(0)\) |
・ 個体レベルの ITE
(個体処置効果 \(δ_i\)) は観察できないが、集団の平均なら観察できる
ATE
)ATE (average treatment effect)
ATE
)」を計算する\[ATE = E[Y_i(1) - Y_i(0)] = E[Y_i(1)] - E[Y_i(0)]\]
\(E[Y_i(1)]\): 全ての個体が処置 1 を受けたとき(= 通院する)の結果の期待値
\(E[Y_i(0)]\): 全ての個体が処置 0 を受けたとき(= 通院しない)の結果の期待値
処置群と統制群
処置の値が 2 つ (0 or 1) しかないとき
→ 処置 1 を受ける =「処置を受ける」= 「通院する」
処置を受けた個体のグループ:処置群(実験群)
→ 処置 0 を受ける =「処置を受けない」=「通院しない」
処置を受けない個体のグループ:統制群(比較群)
平均処置効果 (ATE
) は観察可能? → NO!
\[ATE = E[Y_i(1) - Y_i(0)] = E[Y_i(1)] - E[Y_i(0)]\]
ATE
) は観察できない :::ATT
と ATC
)ATT
を計算できるATC
を計算できる→ 群間比較で因果効果 (ATE
) を推定できる
ATT
(処置群における平均処置効果)ATT
とセレクションバイアスの関係をフォーマルに表してみるD=0
であれば)「もともとの健康状態が同じ」ならATE
は推定できないが、ATT
が推定できるATC
(統制群における平均処置効果)ATC
とセレクションバイアスの関係をフォーマルに表してみるD=0
であれば)「もともとの健康状態が同じ」ならATE
は推定できないが、ATC
が推定できるATE
(平均処置効果)が計算できる条件 ATT
) と統制群における平均処置効果 (ATC
) が計算できるATE
) が計算できるATT
と「通院しない集団」における ATC
が計算できるATE
を計算できる