• このセクションで使っている R packages
library(broom)
library(devtools)
library(lmtest)
library(margins)
library(MatchIt)
library(sandwich) 
library(tidyverse)
library(patchwork)
library(stargazer)

1. 傾向スコアの定義

  • 傾向スコア \(e_i(X_i)\)
    観測された共変量 \(X_i = (X_{1i}, X_{2i},..., X_{kj})\) で条件付けた、処置される(\(D=1\)確率

\[e_i(X_i) = Pr(D_i = 1|X_i)\] ただし \[(0≦e_i(X_i)≦1)\]

  • 傾向スコアとは、\(X\) で条件付けられた処置 \(D\) が 1 になる確率

  • 傾向スコアは確率 →  0 から 1 の間の値をとる (Rosenbaum and Rubin, 1983)

  • 極端に小さい値(0.1 など)や極端に大きな値(0.9 など)は使いにくいので、分析のためには望ましくない

2. なぜ傾向スコアが必要なのか?

  • 同じ個体に関して「処置を行い」かつ「処置を行わない」ことはできない

  • 実験研究では、複数の個体を用意し、それらの個体を無作為に「処置群」と「統制群」に割り付けて比較可能な集団を作り、平均処置効果 (ATE) を推定できる

  • しかし観察研究では、処置の割り付けが無作為ではない

  • 「処置群」と「統制群」をそのまま比較しても因果効果を適切に推定できない

  • そこで、処置を受ける確率(= 傾向スコア)が同じ個体同士をペアで比較すればいいのではないかと考える

  • 傾向スコアで条件付けしてマッチングし、観測される共変量が同じ個体をペアにして、異なる個体同士を同じ個体として取り扱う
    → セレクションバイアスを除外して因果効果を推定できる

  • ランダム化比較試験 (RCT) などの実験研究 では因果推論ができるのに、調査・観察データではできない理由
    → 調査・観察データでは「処置群」と「統制群」が交換できないが、ランダム化比較試験 (RCT) では「処置群」と「統制群」が交換できるから

分析方法 処置を受けることを決める人 「処置群」と「統制群」交換可能性 因果推論の可否
ランダム化比較試験 (RCT) 分析者 可能  → セレクションバイアスなし 因果推論ができる
調査・観察データの単純比較 被験者 不可能 → セレクションバイアスあり 因果推論ができない
  • 因果効果は「2 つの潜在的アウトカム間の差」として定義される
  • しかし、これらの 2 つの潜在的アウトカムは、いずれか一方しか観察できない
    → 個々の個体についての因果効果を推定することはできない
    → しかし、ランダム化比較試験では、観測しなかった半分の集団観測したもう半分の集団は、処置を施されたかどうかという違い以外に大きな差がないと考える  
  • 例えば調査対象である有限母集団が 100人(男性50人、女性50人)だとする
  • ここから無作為に 50 人ずつ抽出することを考える
  • 50人ずつ交換可能な処置群と統制群に人々を割り振って平均処置効果を比較する
    → 仮に100人全員が処置を受け受けた場合、あるいは受けなかった場合の結果をかなりの程度推論できる

2.1 調査・観察データの場合

  • 100人の有限母集団の時   
  • 最悪の場合・・・男性50人、女性50人ずつ割り振られてしまうことがあり得る
  • 「ランダムな割り付けは、自然には実現されない」(ローゼンバウム 2021)