因果関係の模索

1. 因果関係と相関関係
-1.1. 因果関係と相関関係
-1.2. 因果関係の三条件
-1.3.トリートメントとコントロール
-1.4. 横断研究と縦断研究
-1.5. 交絡因子
-1.6. 選挙費用と投票率における交絡因子

2. 観察研究における政策効果
- 2.1 スタバの最低賃金と失業率
- 2.2 経済学理論の検証
- 2.3 バイアスの種類

3. 交絡因子バイアスと対処法
-3.1. 細分類 (subclassification)
-3.2. 偽実験計画 (before-and-after design)
-3.3. 差分の差分分析 (difference-in-differences design)

4. References

1. 因果関係と相関関係

1.1. 因果関係と相関関係

・相関関係があるからといって、必ずしも因果関係があるとは限らない。

三つのケース

(1) 疑似相関 (spurious correlation)

・「選挙区ごとに候補者が費やした選挙費用合計」と「選挙区ごとの投票率」の関係を考える。
・「選挙費用」を X 軸、「投票率」を Y 軸として散布図で表してみる

・両者の間には「正の相関関係」が認められる。
・この結果から、次のように結論づけられるか？

・試しに、選挙区ごとの「接戦度」ごとに散布図を描き直してみると・・・

・選挙区の接戦度別に見ると、二つの変数間の正の相関関係は消えている。
・一見、因果関係がありそうに見えるが、見方を変えると（＝第三の変数を考慮すると）因果関係が消えてしまう関係・・・疑似相関

結論：二変数の関係を考える際、第三の変数の可能性を考える！

(2) 偶然の相関

・ハーバード大学ロースクールの学生が、世の中に溢れている二変数間の「相関関係」を紹介。
・その中の一つ・・・メーン州での「1000人あたりの離婚率」と「一人あたりマーガリン消費量」（相関係数 = 0.989）。

Source: Tyler Vigen, Spurious Correlations, 2015, hachette, p.7.

Spurious Correlations で紹介しているその他の相関係数：
・「チキンの消費量」と「紙の消費量」の相関係数は 0.996。
・「ティーの消費量」と「芝刈り機による死亡者数」の相関係数は 0.93。
・「魚の消費量」と「KFCの顧客満足度」の相関係数は 0.933。
・「牛肉の消費量」と「雷による死亡者数」の相関係数は 0.87。

結論：世の中には「偶然の相関」が溢れているので注意が必要！

(3) 互恵効果（同時性）

・総務省が公開している警察官と犯罪認知件数データ (2014年度) : police_crime2014.csv
・都道府県別人口 1,000人あたりの警察官数 (police)
・都道府県別人口 1,000人あたりの刑法犯罪認知件数 (crime)
・出典：総務省平成26年度地方公共団体定員管理調査関係データ、平成26年度『警察白書』。

library("readr")
police_crime <- read.csv("police_crime2014.csv")

・データの内容を表示してみる

police_crime

        pref pref_abr   police crime
1      osaka      osk 2.625018 17.11
2    fukuoka      fko 2.277854 13.12
3      aichi      aic 1.914967 13.01
4      hyogo      hyo 2.210530 12.73
5      chiba      chi 2.071708 12.57
6      kyoto      kyo 2.707766 12.22
7      tokyo      tok 3.481908 12.15
8    ibaraki      iba 1.812279 12.00
9    saitama      sai 1.727613 11.63
10      gifu      gif 1.903325 10.95
11     shiga      shg 1.801624 10.91
12       mie      mie 1.867628 10.84
13   okayama      oka 2.063853 10.30
14     ehime      ehi 2.011308  9.74
15   tochigi      toc 1.889488  9.55
16     gunma      gun 1.944347  9.52
17  wakayama      wak 2.557413  9.38
18      saga      sag 2.346063  8.99
19      nara      nar 2.014579  8.96
20 yamanashi      ymn 2.297239  8.88
21     kochi      koc 2.583492  8.85
22    kagawa     kaga 2.156104  8.50
23  kanagawa     kngw 1.864164  8.46
24    miyagi      myg 1.880160  8.32
25 hiroshima      hir 2.012582  7.97
26  shizuoka      shz 1.881194  7.95
27 tokushoma     toks 2.382595  7.62
28   okinawa      oki 2.035101  7.61
29  hokkaido      hok 2.200545  7.60
30 fukushima      fks 2.091778  7.54
31   niigata      nii 2.022629  7.49
32   tottori      tot 2.505130  7.45
33 yamaguchi      ygc 2.510401  7.30
34  miyazaki      mzk 2.082634  7.18
35  kumamoto      kum 1.938011  7.15
36    nagano      nag 1.835954  7.02
37     fukui      fki 2.568282  6.69
38  ishikawa      ish 1.979315  6.47
39   shimane      shm 2.603961  6.28
40    toyama      toy 2.097059  5.97
41 kagoshima      kgs 2.060214  5.56
42  yamagata      ygt 2.046594  5.46
43      oita      oit 2.036354  5.37
44  nagasaki      nag 2.518819  5.28
45    aomori      aom 1.996425  4.93
46     iwate      iwa 1.940230  4.48
47     akita      aki 2.250593  3.83

・police と crime の散布図を描くと

library("ggplot2")

ggplot(police_crime, aes(crime, police)) +
  theme_bw() +
  geom_point(size = 1) +
  stat_smooth(method = lm, se = FALSE) +
  geom_text(aes(y = police + 0.03, label = pref_abr), size = 4, vjust = 0)

・二変数間には正の相関がある。
・一般的な考え・・・「刑法認知件数」→「警察官数」・・・正の因果関係

・しかし、警察官の数を増やせば、それだけ犯罪は減るという負の因果関係も考えられる。

・従って、二変数の間には次の二つの因果関係が同時に進行していると考えることができる。

結論：二変数の関係を考える際、互恵効果（同時性）の可能性を考える！

1.2. 因果関係の三条件

・「因果関係がある」と主張するために必要な条件
①比較されているか（トリートメントとコントロールに分類したか？）
②時間軸は考慮しているか（縦断研究か？）
③第三の要因を考慮したか（交絡因子はあるのか？）

・ほとんどの社会現象は、複数の原因が複雑に絡みあって結果を生じさせている（＝因果の綾：web of causation）。
・原因を即断するのではなく、他に考えられる原因を見落としていないか慎重に推論する必要がある。

1.3.トリートメントとコントロール

・「一日一食」と「体重減」の関係を考える。
・二変数の間に関係がある場合、まず、次の三つの可能性が考えられる。

・二変数の間に相関関係があるからといって、必ずしも「一日一食」→「体重」という因果関係があるとは限らない。
・体重が減ったために一日一食しか食べられなくなった可能性も排除できない。
・「一日一食」→「体重減」という因果関係が成立するためには、一日一食でない人と比較する必要がある。
・一日二食（あるいは一日三食かそれ以上）の生活習慣の人も体重が減ったかもしれない。
・「一日一食」の場合を「トリートメント」に指定。
・「一日一食」以外の場合を「コントロール」に指定。
・「観察」や「実験」をして比較する。
・「一日一食」→「体重減」という仮説は「コントロール」との比較というエビデンスなしには検証できない。

1.4. 横断研究と縦断研究

・「一日一食」と「体重減」という質問を「同時に」行う（＝横断研究）。
　→どちらが「原因」でどちらが「結果」か判断できない。
・原因と結果は、原因が時間的に先行しなければならない。
・最初に「一日一食ですか？」という質問をする。
・その後、しばらく時間をおいてから（例えば数ヶ月程度）「あなたの体重は？」と質問する（＝縦断研究）。
　→「因果の逆転」を回避 → 因果関係を判断できる。
・「体重が減った結果、一日一食しか食べれなくなった」可能性を排除できる。

1.5. 交絡因子

・「一日一食」と「体重」の間には因果関係は存在せず、第三の要因（交絡因子: confounding factor）が存在する可能性がある。

・つまり「病気」だから「一日一食」しか食べられないのであり、「病気」だから体重が落ちたという説明。
・「一日一食」と「体重」の両者に影響を与える「病気」が交絡因子 (confouding factor) 。
・「病気」 →「一日一食」の関係と「病気」 →「体重」の関係が因果関係。
　　→「一日一食」と「体重」の間の関係は見せかけの相関 (spurious correlation)。

1.6. 選挙費用と投票率における交絡因子

・次の二つの変数の相関を調べてみる

・x 軸・・・選挙区ごとに候補者が費やした選挙費用合計：千万円
・y 軸・・・選挙区ごとの投票率：%

・人工的に架空のデータを作ってみる

set.seed(12345)

# 50%の確率 (.5) で 0 か 1 の値を 100 個、無作為に抽出し comp と名前を付ける
comp <- rbinom(100, 1, .5)

# 選挙費用合計を 100 個、無作為に抽出し money と名前を付ける  
# サンプルを取り出す元になる母平均と母標準偏差を任意に指定する
money <- rnorm(100, mean = 0.4 + 0.5*comp, sd = 0.2) 

# 投票率を 100 個、無作為に抽出し turnout と名前を付ける  
# サンプルを取り出す元になる母平均と母標準偏差を任意に指定する
turnout <- rnorm(100, mean = 0.4 + 0.3*comp, sd = 0.1)

人工的に作り出した三つの変数をデータフレームに入れ df と名前を付け、データを表示する

df <- data.frame(money = money,
                 turnout = turnout,
                 comp = as.factor(comp))
head(df)

      money   turnout comp
1 0.7919228 0.5380672    1
2 1.2895385 0.7548398    1
3 0.9107181 0.7195282    1
4 0.9703326 0.6193502    1
5 0.2658047 0.3891376    0
6 0.4555907 0.3749053    0

tail(df)

        money   turnout comp
95  0.9031711 0.6893631    1
96  1.0080339 0.7771104    1
97  0.5905416 0.9747404    1
98  1.0699306 0.6916065    1
99  0.5792026 0.4543568    0
100 0.4277382 0.4752861    0

・「選挙費用の合計」を x 軸、「投票率」を y 軸とした散布図と回帰直線を描いてみる

library("ggplot2")

plt <- ggplot(df, aes(x = money, y = turnout)) +
  geom_point() +
  theme_bw() +
  geom_smooth(se = FALSE, method = 'lm') +
  labs(x = "Campaign Expenditure (1,000 yen)", y = "turnout (%)")
plt

・両変数には正の相関がありそう
・相関係数を確認すると

cor.test(money, turnout)


    Pearson's product-moment correlation

data:  money and turnout
t = 7.5656, df = 98, p-value = 2.118e-11
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.4664265 0.7179987
sample estimates:
      cor 
0.6072149

・money と turnout の相関係数は 0.6072149
- p 値（= 2.118e-11 = 0.00000000002118)
- p 値（= 2.118e-11 = 0.000000002118%）（つまりほぼ％）が意味していること
- 帰無仮説：「x と y の相関係数は 0」が正しいとすれば、このようなデータが出現する確率はほぼ 0 ％という意味
- P 値が a = 0.01（= 1％の有意水準）以下なので、帰無仮説は棄却、対抗仮説を受容する
- つまり、統計的には x と y の相関関係は偶然ではない、という結論になる
・money と turnout の間には正の「相関関係」がある
・しかし、money と turnout の間には正の「因果関係」はあるのか？

・もし両者の間に「因果関係」があり、「選挙費用の合計」が「投票率」を上げているのであれば → 投票率を上げるために、候補者は選挙費用を多く使う必要がある

・ここでは、次の四つの可能性が存在する

・第 3 の要因・・・交絡因子 (confounding factor)

・ここで第 3 の要因として選挙の「接戦度」が考えられる

・無風選挙区と比べると、接戦の選挙区では選挙運動でより多くのお金が使われる。
・無風選挙区と比べると、接戦の選挙では投票率が高い。
　→ 接戦では、選挙でお金が多く使われ、投票率が高い
　→ 無風では、選挙でお金があまり使われず、投票率が低い
・「接戦の選挙区」（青色）と「無風の選挙区」（赤色）に分けてプロットしてみる

選挙の接戦度を考慮した結果

→ 選挙費用と投票率には直接的な因果関係はない

2. 観察研究における政策効果

2.1 スタバの最低賃金と失業率

・2017年に東京が、一時間あたりの最低賃金を 786円から 830円に引き上げた（架空データ）。
・経済学の理論が予想するように、最低賃金の引き上げは正社員雇用を減らすのか？

・データをロードする

coffee <- read.csv("coffee.csv")
dim(coffee)

[1] 358   8

summary(coffee)

       chain             location     wageBefore      wageAfter     
 doutor   : 88   centralTOKYO: 33   Min.   :699.0   Min.   : 699.0  
 komeda   : 46   KANAGAWA    : 67   1st Qu.:699.0   1st Qu.: 830.0  
 starbucks:149   northTOKYO  :146   Median :740.0   Median : 830.0  
 tullys   : 75   shoreTOKYO  : 67   Mean   :759.3   Mean   : 820.8  
                 southTOKYO  : 45   3rd Qu.:820.0   3rd Qu.: 830.0  
                                    Max.   :945.0   Max.   :1028.0  
   fullBefore       fullAfter        partBefore      partAfter    
 Min.   : 0.000   Min.   : 0.000   Min.   : 0.00   Min.   : 0.00  
 1st Qu.: 2.125   1st Qu.: 2.000   1st Qu.:11.00   1st Qu.:11.00  
 Median : 6.000   Median : 6.000   Median :16.25   Median :17.00  
 Mean   : 8.475   Mean   : 8.362   Mean   :18.75   Mean   :18.69  
 3rd Qu.:12.000   3rd Qu.:12.000   3rd Qu.:25.00   3rd Qu.:25.00  
 Max.   :60.000   Max.   :40.000   Max.   :60.00   Max.   :60.00

head(coffee)

      chain   location wageBefore wageAfter fullBefore fullAfter
1    komeda southTOKYO        740       932          0       5.0
2 starbucks southTOKYO        822       904         10       6.0
3    doutor southTOKYO        740       904         20      15.0
4 starbucks southTOKYO        781       863         10       7.5
5 starbucks southTOKYO        781       863          0      20.0
6    doutor southTOKYO        740       847          5      10.0
  partBefore partAfter
1         40        35
2          6        25
3         20        20
4          6        10
5         35        40
6         30        30

・東京で最低賃金法が実施された後に、実際に正社員雇用率が上がったかどうか調べる
・subset() 関数を使って、東京と神奈川県それぞれのデータ (TOKYO と KGW) を抜き出す

TOKYO <- subset(coffee, subset = (location != "KANAGAWA")) # because TOKYO is divided into 4 parts
KGW <- subset(coffee, subset = (location == "KANAGAWA"))

・変数の class を確認する

class(TOKYO$wageBefore)

[1] "integer"

class(TOKYO$wageAfter)

[1] "integer"

class(KGW$wageBefore)

[1] "integer"

class(KGW$wageAfter)

[1] "integer"

・factor である二つの変数を integer に変換する。

TOKYO$wageAfter <- as.integer(TOKYO$wageAfter)
KGW$wageAfter <- as.integer(KGW$wageAfter)

head(TOKYO)

##       chain   location wageBefore wageAfter fullBefore fullAfter
## 1    komeda southTOKYO        740       932          0       5.0
## 2 starbucks southTOKYO        822       904         10       6.0
## 3    doutor southTOKYO        740       904         20      15.0
## 4 starbucks southTOKYO        781       863         10       7.5
## 5 starbucks southTOKYO        781       863          0      20.0
## 6    doutor southTOKYO        740       847          5      10.0
##   partBefore partAfter
## 1         40        35
## 2          6        25
## 3         20        20
## 4          6        10
## 5         35        40
## 6         30        30

・最低賃金法が実施される「前」、平均最低賃金が 830円未満の東京の coffee shop の logical value を表示すると

TOKYO_logi <- TOKYO$wageBefore < 830
TOKYO_logi

  [1]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
 [12]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE
 [23] FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE FALSE
 [34]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE FALSE  TRUE
 [45]  TRUE  TRUE FALSE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE FALSE  TRUE
 [56]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE
 [67] FALSE FALSE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE
 [78]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
 [89]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[100]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[111]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[122]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[133]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[144]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE FALSE FALSE FALSE  TRUE
[155]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[166]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[177]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[188]  TRUE  TRUE  TRUE  TRUE FALSE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE
[199]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[210]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE FALSE  TRUE  TRUE  TRUE  TRUE
[221]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE
[232]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[243]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE
[254]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[265]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE
[276]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[287] FALSE FALSE  TRUE  TRUE  TRUE

・最低賃金法が実施される「前」、平均最低賃金が 830円未満の東京の coffee shop の割合＝全体に占める TRUE の割合
・“TRUE” = 1, “FALSE” = 0 なので、291 の店舗に占める TRUE の割合 = mean(TOKYO_logi)

mean(TOKYO_logi)  #Tokyo before

[1] 0.9106529

・最低賃金法が実施される「前」、東京の coffee shop の 91% 以上が最低賃金 830円未満
・最低賃金法が実施された「後」には、

mean(TOKYO$wageAfter  < 830)  #Tokyo after

[1] 0.003436426

・最低賃金 830円未満は、わずか 0.34%。
・最低賃金法が実施された「後」、東京の coffee shop のほとんどが最低賃金 830円以上になった

・同様に、最低賃金法が実施される「前」、平均最低賃金が 830円未満の神奈川の coffee shop の割合は

mean(KGW$wageBefore < 830)  # KGW before

[1] 0.9402985

・最低賃金法が実施される「前」、神奈川の coffee shop の 94% 以上が最低賃金 830円未満
・最低賃金法が実施された「後」には、

mean(KGW$wageAfter < 830)  # KGW after

[1] 0.9552239

・東京で最低賃金法が実施された前も後も、神奈川県では最低賃金 830円未満の coffee shop の割合はいずれも高い (約 94% と約 96%)
・東京とは全く異なる結果

→ 結論：東京における最低賃金引き上げの影響は神奈川の coffee shop まで及んでない

2.2 経済学理論の検証

経済学理論:

最低賃金を上げる → 雇用コストが上がる → 経費削減のため正社員を減らす

・ここでは東京に隣接した神奈川の coffee shop をコントロールと見なす
・東京における「最低賃金引き上げ」が「正社員雇用率」に与える因果的影響を推定する

・最低賃金引き上げ後における東京と神奈川における正社員率 (fullPropAfter) を計算し、data.frame に加える

TOKYO$fullPropAfter<- TOKYO$fullAfter / (TOKYO$fullAfter + TOKYO$partAfter)
KGW$fullPropAfter <- KGW$fullAfter / (KGW$fullAfter + KGW$partAfter)

・TOKYO, KGW それぞれの data.frame を確認してみると、fullProfAfter が新たに加えられていることがわかる

head(TOKYO)

      chain   location wageBefore wageAfter fullBefore fullAfter
1    komeda southTOKYO        740       932          0       5.0
2 starbucks southTOKYO        822       904         10       6.0
3    doutor southTOKYO        740       904         20      15.0
4 starbucks southTOKYO        781       863         10       7.5
5 starbucks southTOKYO        781       863          0      20.0
6    doutor southTOKYO        740       847          5      10.0
  partBefore partAfter fullPropAfter
1         40        35     0.1250000
2          6        25     0.1935484
3         20        20     0.4285714
4          6        10     0.4285714
5         35        40     0.3333333
6         30        30     0.2500000

head(KGW)

       chain location wageBefore wageAfter fullBefore fullAfter partBefore
46 starbucks KANAGAWA        699      1028          8         6         28
47    komeda KANAGAWA        822       863         20         0         20
48 starbucks KANAGAWA        740       830         20        25         55
49 starbucks KANAGAWA        822       822         10        26         17
50 starbucks KANAGAWA        822       822         40         9         30
51 starbucks KANAGAWA        801       822          0        15         25
   partAfter fullPropAfter
46        20     0.2307692
47        36     0.0000000
48        10     0.7142857
49         9     0.7428571
50        32     0.2195122
51        15     0.5000000

・最低賃金引き上げ後における東京の正社員雇用率平均は

mean(TOKYO$fullPropAfter)

[1] 0.320401

・最低賃金引き上げ後における神奈川の正社員雇用率平均は

mean(KGW$fullPropAfter)

[1] 0.2722821

・最低賃金引き上げ後における東京の正社員雇用率平均と神奈川の正社員率平均の差は

# compute the difference-in-means
mean(TOKYO$fullPropAfter) - mean(KGW$fullPropAfter)

[1] 0.04811886

結論
・東京での「最低賃金引き上げ」が神奈川での「正社員雇用率」の低下に影響していない
・むしろ「最低賃金引き上げ」を実施した東京の方が、神奈川よりも「正社員雇用率」が高い (4.8 % points)

2.3 バイアスの種類

・バイアスは因果推論を妨げる
・バイアスとは・・・真実を歪ませる情報の偏りや考え方
・三種類のバイアス

I. 情報バイアス

・情報をやりとりする場で見られるバイアス
・情報に偏りを生じさせるバイアス
・追従（おべっか）バイアス・機嫌取りバイアス
・相手に好かれたいと思うときに見られる
・「全国津々浦々から福田福田の声があがっている」(福田赳夫首相の勘違い、1978年)
・「フレーム効果 (framing effect)」:　同じ事実でも、数字の示し方によって印象が変わること
(a) 「当選の確率は60%」・・・前向な印象を与える
(b) 「落選の確率は40%」・・・ネガティブな印象を与える
・ネガティブなことの方が過大に評価されがち

II. 選択バイアス

・調査のために選んだ被験者と選ばなかった被験者の性質の差に起因するバイアス
・1936年アメリカ大統領選挙

Source: https://en.wikipedia.org/wiki/United_States_presidential_election,_1936

・Literary Digest誌・・・230万人から得た世論調査 → Landon 候補が 370万票で当選と予想
・Gallup社・・・5万人から得た世論調査 → Rosevelt 候補の当選を予想
・結果：Rosevelt が圧勝
・literary Digest誌が予測を誤った理由
　→ 偏った被験者に世論調査を実施したため：
(1) Literary Digest誌の読者 → 共和党支持者が多かった
(2) 電話帳や自動車登録名簿から被験者を選んだ
　　→ 当時、電話帳や自動車を所有していたのは経済的に恵まれた層の有権者
　　→ 調査対象者にバイアスがあったため、世論調査結果が偏った

III. 交絡因子バイアス

・交絡因子:トリートメントと結果変数の両方と関係している変数
・単純な二者関係にみえる因果関係に、交絡因子がからんでいるときに生じるバイアス
・次節で詳しく論じる。

3. 交絡因子バイアスと対処法

・観察研究における重要な前提

結果に与える要因に関して、トリートメントとコントロールは「トリートメントであるかないか」以外、類似している
・東京でだけ coffee shop 間で激しい競争関係がある場合
・そのような産業 = 交絡因子 (confounding factor) になり得る
・交絡因子:トリートメントと結果変数の両方と関係している変数
　→神奈川の coffee shop は、東京の coffee shop に対して適切なコントロールとは言えない
　→東京と神奈川の coffee shop は比較できない
　→「東京での最低賃金引き上げが神奈川での正社員雇用率を若干高めている（結論）」とは言えない

・交絡因子バイアス

・最低賃金引き上げ前に東京と神奈川の coffee shop の間には様々な違いがあるはず
・その違いが結果に影響を与えている限り、推定にバイアスを与える可能性がある:
・そのようなバイアス・・・交絡因子バイアス (confounding bias)
・交絡因子があると、トリートメント効果の推定において交絡因子バイアスを引き起こしうる
・観察研究では、このようなセレクション・バイアス (selection bias) が起こりうる
・その理由 → 調査を行う研究者がトリートメントの割当に関してコントロールできないから
・例えば、東京では最低賃金引き上げ法を可決されたが、神奈川では可決されていない
・それには政治的な理由、経済的な理由、あるいは雇用に関する理由があるはず
・もしそうなら、最低賃金引き上げ後における東京と神奈川を単純に比較することはセレクション・バイアスを引き起こしうる
・トリートメントの割当に関してセレクション・バイアスが存在する
　→トリートメントとコントロールは観察される（されない）特徴において重要な違いが存在する
　→トリートメントとコントロールの間で観察された結果の違いが、トリートメントの条件によって引き起こされたのか、それとも交絡因子によるものなのか判断できない
・観察研究では、交絡因子バイアスの可能性を完全に排除できない
・しかし、統計的にコントロール (statistical control) することによって対処できる
・その一つの方法・・・細分類 (subclassification)

3.1. 細分類 (subclassification)

・共通の価値をもつ部分集合内で比較することで、トリートメントとコントロールを出来るだけ類似したものに方法

交絡因子バイアスの可能性 (I)

coffee shop の採用方針が異なるのではないか？

・例えば、東京と神奈川におけるカフェ全体に占める Starbucks の割合を調べてみる
・東京のスターバックスの件数と割合は

table(TOKYO$chain)


   doutor    komeda starbucks    tullys 
       73        35       118        65

prop.table(table(TOKYO$chain))


   doutor    komeda starbucks    tullys 
0.2508591 0.1202749 0.4054983 0.2233677

・神奈川のスターバックスの件数と割合は

table(KGW$chain)


   doutor    komeda starbucks    tullys 
       15        11        31        10

prop.table(table(KGW$chain))


   doutor    komeda starbucks    tullys 
0.2238806 0.1641791 0.4626866 0.1492537

・カフェ全体に占める Starbucks の割合は神奈川 (46%) の方が東京 (40%) より高い
・もし、Starbucks が他の coffee shop と異なる採用方針（例えば、より熱心な正社員を雇うなど）なら、神奈川と東京におけるこの違いは「最低賃金の引き上げ」と「正社員の割合」の関係を交絡させる可能性がある
・この可能性を排除する解決策
　→ Starbucks だけを比較する
・Starbucks だけを比較する（= 統計的なコントロール）
　→ coffee shop の違いによる交絡因子を排除できる
・最低賃金の引き上げ後の、東京と神奈川それぞれにおける Starbucks の正社員率を比較する
・東京における Starbucks の職員だけを sebset()関数を使って抜き出す

TOKYO.sb <- subset(TOKYO, subset = (chain == "starbucks"))

・神奈川における Starbucks の職員だけを sebset()関数を使って抜き出す

KGW.sb <- subset(KGW, subset = (chain == "starbucks"))

・東京の Starbucks における正社員の職員の割合と神奈川の Burger Kin における正社員の職員の割合の差は

mean(TOKYO.sb$fullPropAfter) - mean(KGW.sb$fullPropAfter)

[1] 0.03643934

・Starbucks における正社員の割合と神奈川の Starbucks における正社員の割合の差は 3.6 % points だとわかる
・Starbucks を含めた全ての coffee shop の東京の正社員率の平均と神奈川の正社員率の平均の差は

# compute the difference-in-means
mean(TOKYO$fullPropAfter) - mean(KGW$fullPropAfter)

[1] 0.04811886

・Starbucks における東京と神奈川の正社員率の平均の差・・・ 3.6 % points
・Starbucks を含めた全ての coffee shop における東京と神奈川の正社員率の平均の差・・・ 4.8 % points

結論
・両者に大きな差がない = coffee shop の違いは交絡因子ではないらしい

交絡因子バイアスの可能性 (II)

レストランの位置が影響しているのではないか？

・都道府県単位では正確な比較ができないのでは
・東京と神奈川は隣接県
・東京と神奈川全体を比較するのではなく、経済状況が類似した都道府県境のエリアを比較する
・その方がより説得力のある比較ができるはず

・解決策
　→ coffee shop の位置に配慮して細分類する
・東京の location のサマリーを表示

summary(TOKYO$location)

centralTOKYO     KANAGAWA   northTOKYO   shoreTOKYO   southTOKYO 
          33            0          146           67           45

・東京は北から次の四つに分類されている
(1) northTOKYO・・・神奈川に遠い地域
(2) shoreTOKYO・・・東京の湾岸地域
(3) centralTOKYO・・・東京の中央地域
(4) southTOKYO・・・神奈川に近い地域

・東京の coffee shop を「神奈川に近い地域」だけに限定して分析する

TOKYO.sb.subset <- subset(TOKYO.sb, subset = ((location == "southTOKYO")))

・神奈川県に近い東京南部 (southTOKYO) Starbucks と神奈川の Starbucks 正社員率の平均の差は

mean(TOKYO.sb.subset$fullPropAfter) - mean(KGW.sb$fullPropAfter)

[1] 0.0280725

・神奈川に近い東京地域の Starbucks と神奈川の正社員率の平均の差・・・ 3.1 % points
・Starbucks における東京と神奈川の正社員率の平均の差・・・ 2.8 % points

結論
・両者に大きな差がない= レストランの位置が交絡因子ではないらしい

3.2. 偽実験計画 (before-and-after design)

・独立変数を変化させる前と後で従属変数の変化を観察し，従属変数の変化が独立変数の変化によるものかどうかを判断する = QUASI-EXPERIMENT。

・パネル・データ（あるいは longitudinal data）とは「時間をクロスしたデータ」
（= 時系列データのハイブリッド版）
・クロス・セクション・データ (cross section data)とは、一時点において複数の対象の情報を横断的に集めたデータ
・最低賃金と失業率の因果関係を分析する方法は一つではない
(1) 法律の実施前後における「東京の最低賃金」と「神奈川の正社員雇用率」を比較（上記）
(2) 法律の実施前後における「東京内の最低賃金」と正社員雇用率を比較・・・before-and-after design

法律改訂前における東京の正社員雇用率

TOKYO$fullPropBefore <- TOKYO$fullBefore / (TOKYO$fullBefore + TOKYO$partBefore)

東京における法律改定後と前における最低賃金平均の差

TOKYOdiff <- mean(TOKYO$fullPropAfter) - mean(TOKYO$fullPropBefore)
TOKYOdiff

[1] 0.02387474

before-and-after design を使う利点
・都道府県ごとに比較するため、各都道府県特有の交絡因子 (confounding factor) をコントロールできる

before-and-after design を使う欠点
・時を追って変化する交絡因子が推定にバイアスをもたらす
・もし東京の経済が上向き傾向にあれば、最低賃金法の改定がなくても、最低賃金は上がるはず
・推定にバイアスが生じてしまう
・before-and-after design は「東京の経済が上向き傾向にある」といった「交絡因子は存在しない」ということを前提にして成り立つ

3.3. 差分の差分分析 (difference-in-differences design)

・量的調査において用いられる、観測データによって実験的な研究を模倣するための統計手法。
・before-and-after design を発展させ、タイムトレンドによる交絡因子の問題をクリアーした分析方法
・outcome 変数: 正社員雇用率（最低賃金法実施前後: before and after）
・トリートメント:東京の coffee shop
・コントロール:神奈川の coffee shop
・DiD の前提：観察可能なトリートメントとコントロールのタイム・トレンドはパラレル
・つまり、東京のタイム・トレンドと神奈川のタイム・トレンドはパラレル（= 青線と緑線は平行）
　→東京の反事実的 (counterfactural) な結果を推定できる

・反事実的な結果・・・東京が最低賃金法を実施しなかった場合に観察される正社員雇用率（緑の点線）
・東京が最低賃金法を実施しなかった場合、東京は神奈川と同じような経済トレンドのはず、と想定
・緑の点線は、東京が最低賃金法を実施しなかった場合、東京が体験するであろう反事実的な結果
・この結果は、観察されたコントロール (神奈川県) のタイム・トレンドとパラレルと想定
・東京の coffee shop のサンプル平均因果影響 (Sample averageトリートメントeffect: SATT) を求める

・sample average treatment effect for the treated: SATT = DiD デザイン下で計算される推定値 = Average causal effect estimate
・「差の差」(difference-in-differences)
・最低賃金法の実施前後に観察された東京での正社員雇用の割合の差:トリートメント間の差
・最低賃金法の実施前後に観察された神奈川での正社員雇用の割合の差: コントロール間の差

・DiD estimate を計算するためには、上図の A, B, C, D の値を計算する必要がある
・最低賃金引き上げ前の東京と神奈川における正社員率 (fullPropAfter) を計算し、data.frame に加える

TOKYO$fullPropBefore<- TOKYO$fullBefore / (TOKYO$fullBefore + TOKYO$partBefore)
KGW$fullPropBefore <- KGW$fullBefore / (KGW$fullBefore + KGW$partBefore)

・二つのデータフレーム (TOKYOと KGW) を確認

head(TOKYO)

      chain   location wageBefore wageAfter fullBefore fullAfter
1    komeda southTOKYO        740       932          0       5.0
2 starbucks southTOKYO        822       904         10       6.0
3    doutor southTOKYO        740       904         20      15.0
4 starbucks southTOKYO        781       863         10       7.5
5 starbucks southTOKYO        781       863          0      20.0
6    doutor southTOKYO        740       847          5      10.0
  partBefore partAfter fullPropAfter fullPropBefore
1         40        35     0.1250000      0.0000000
2          6        25     0.1935484      0.6250000
3         20        20     0.4285714      0.5000000
4          6        10     0.4285714      0.6250000
5         35        40     0.3333333      0.0000000
6         30        30     0.2500000      0.1428571

head(KGW)

       chain location wageBefore wageAfter fullBefore fullAfter partBefore
46 starbucks KANAGAWA        699      1028          8         6         28
47    komeda KANAGAWA        822       863         20         0         20
48 starbucks KANAGAWA        740       830         20        25         55
49 starbucks KANAGAWA        822       822         10        26         17
50 starbucks KANAGAWA        822       822         40         9         30
51 starbucks KANAGAWA        801       822          0        15         25
   partAfter fullPropAfter fullPropBefore
46        20     0.2307692      0.2222222
47        36     0.0000000      0.5000000
48        10     0.7142857      0.2666667
49         9     0.7428571      0.3703704
50        32     0.2195122      0.5714286
51        15     0.5000000      0.0000000

トリートメント（東京）に関する値の計算

・最低賃金引き上げ後における東京の正社員雇用率 (fullProfBefore) の平均・・・ C

C <- mean(TOKYO$fullPropAfter)
C

[1] 0.320401

・最低賃金引き上げ前における東京の正社員雇用率 (fullProfBefore) の平均・・・ B

B <- mean(TOKYO$fullPropBefore)
B

[1] 0.2965262

コントロール（神奈川）に関する値の計算

・最低賃金引き上げ後における神奈川の正社員雇用率 (fullProfBefore) の平均・・・ D

D <- mean(KGW$fullPropAfter)
D

[1] 0.2722821

・最低賃金引き上げ前における神奈川の正社員雇用率 (fullProfBefore) の平均・・・ A

A <- mean(KGW$fullPropBefore)
A

[1] 0.3099657

差の差の計算

\[DiD estimate = (C - B) - (D - A)\] \[ = (0.320401 - 0.2965262) - (0.2722821 - 0.3099657) = 0.06155831\]

DiD.estimate <- (C - B) - (D - A)
DiD.estimate

[1] 0.06155831

・東京の coffee shop では最低賃金が上がると正社員雇用の割合が 6.16 % points 上がる
・差の差の推定量・・・直感的だが、実際の測定が比較的簡単
・極めて有益な政策評価方法
・必ずしもパネル・データを必要としない
・繰り返しクロスセクションデータがあれば十分

4. References

浅野正彦, 矢内勇生.『Stataによる計量政治学』オーム社、2013年
Kosuke Imai, Quantitative Social Science: An Introduction, Princeton University Press, 2017
星野匡郎＋田中久稔『Rによる実証分析』オーム社、2016年。
中山健夫『京大医学部で教える合理的思考』2015年、日本経済新聞出版社。
田中隆一『計量経済学の第一歩』2015年、有斐閣ストゥディア。
http://www2.kobe-u.ac.jp/~yyanai/classes/rm1/contents/

因果関係の模索

Masahiko Asano

July 20, 2017

1. 因果関係と相関関係

1.1. 因果関係と相関関係

三つのケース

(1) 疑似相関 (spurious correlation)

結論：二変数の関係を考える際、第三の変数の可能性を考える！

(2) 偶然の相関

結論：世の中には「偶然の相関」が溢れているので注意が必要！

(3) 互恵効果（同時性）

結論：二変数の関係を考える際、互恵効果（同時性）の可能性を考える！

1.2. 因果関係の三条件

1.3.トリートメントとコントロール

1.4. 横断研究と縦断研究

1.5. 交絡因子

1.6. 選挙費用と投票率における交絡因子

・第 3 の要因・・・交絡因子 (confounding factor)

→ 選挙費用と投票率には直接的な因果関係はない

2. 観察研究における政策効果

2.1 スタバの最低賃金と失業率

・変数の class を確認する

・factor である二つの変数を integer に変換する。

→ 結論：東京における最低賃金引き上げの影響は神奈川の coffee shop まで及んでない

2.2 経済学理論の検証

経済学理論:

結論 ・東京での「最低賃金引き上げ」が神奈川での「正社員雇用率」の低下に影響していない ・むしろ「最低賃金引き上げ」を実施した東京の方が、神奈川よりも「正社員雇用率」が高い (4.8 % points)

2.3 バイアスの種類

I. 情報バイアス

II. 選択バイアス

III. 交絡因子バイアス

3. 交絡因子バイアスと対処法

・観察研究における重要な前提

・交絡因子バイアス

3.1. 細分類 (subclassification)

交絡因子バイアスの可能性 (I)

coffee shop の採用方針が異なるのではないか？

交絡因子バイアスの可能性 (II)

レストランの位置が影響しているのではないか？

3.2. 偽実験計画 (before-and-after design)

3.3. 差分の差分分析 (difference-in-differences design)

トリートメント（東京）に関する値の計算

コントロール（神奈川）に関する値の計算

差の差の計算

4. References

結論
・東京での「最低賃金引き上げ」が神奈川での「正社員雇用率」の低下に影響していない
・むしろ「最低賃金引き上げ」を実施した東京の方が、神奈川よりも「正社員雇用率」が高い (4.8 % points)