1. セレクションバイアスとは

  • セレクションバイアス (Selection Bias) の定義:

  • 「原因として考えている変数(処置変数)と結果変数の関係が、想定する因果関係以外に存在する状況」

  • 「処置の値」と「潜在的結果」の間に相関があるということ
    = 「処置を受けた群」と「受けていない群」で、結果のベースラインに違いがある
    = 例えば「通院する人」(処置を受けた群)と「通院しない人」(処置を受けない群)では、もともとの健康状態に違いがある
    → もともと健康状態が良い人は通院しない
    → もともと健康状態が悪い人が通院する

セレクションバイアスの問題点✔ 調査・観察データを使った単純比較では、多くの場合、セレクションバイアスのせいで因果効果は特定できない

→ セレクションバイアスへの対処が、因果推論にとって最大の課題

2. セレクションバイアスのメカニズム

セレクションバイアスの種類

  • 次の二種類あるが、ここでは (2) の「セルフセレクション」について解説する
(1) サンプルセレクション 母集団からかけ離れたサンプルをとること
(2) セルフセレクション 個人が自らの意思に行動を選択した結果、ある行動を取る人たちのグループと取らない人たちのグループの間で特性の差が生じる

2.1 サンプルセレクション

サンプルセレクションの例:
  • 知りたいこと:早稲田大学政経学部全ての学生の統計学の知識
  • 母集団:早稲田大学政治経済学部の全ての学生
  • サンプル:「計量分析(政治)」を履修している学生
    → 「計量分析(政治)」を履修する学生はもともと計量分析に興味がある
    → このサンプルは母集団からかけ離れたサンプルである可能性が高い

対策:調査対象の選定に注意して、早稲田大学政経学部全ての学生から無作為にサンプルをとる

2.2 セルフセレクション

事例 1: シンプソンのパラドクス

  • シンプソンのパラドクスとは、全体でみた解釈と部分で見た会社が異なるという現象

  • 確認したいこと:「運動する」→「コレステロールが下がる」

  • x 軸に「運動量」、y 軸に「コレステロール値」をとってプロットしてみる