1. 因果関係と相関関係
-1.1. 因果関係と相関関係
-1.2. 因果関係の三条件
-1.3.トリートメントとコントロール
-1.4. 横断研究と縦断研究
-1.5. 交絡因子
-1.6. 選挙費用と投票率における交絡因子
2. 観察研究における政策効果
- 2.1 スタバの最低賃金と失業率
- 2.2 経済学理論の検証
- 2.3 バイアスの種類
3. 交絡因子バイアスと対処法
-3.1. 細分類 (subclassification)
-3.2. 偽実験計画 (before-and-after design)
-3.3. 差分の差分分析 (difference-in-differences design)
・相関関係があるからといって、必ずしも因果関係があるとは限らない。
・「選挙区ごとに候補者が費やした選挙費用合計」と「選挙区ごとの投票率」の関係を考える。
・「選挙費用」を X 軸、「投票率」を Y 軸として散布図で表してみる
・両者の間には「正の相関関係」が認められる。
・この結果から、次のように結論づけられるか?
・試しに、選挙区ごとの「接戦度」ごとに散布図を描き直してみると・・・
・ハーバード大学ロースクールの学生が、世の中に溢れている二変数間の「相関関係」を紹介。
・その中の一つ・・・メーン州での「1000人あたりの離婚率」と「一人あたりマーガリン消費量」(相関係数 = 0.989)。
Source: Tyler Vigen, Spurious Correlations, 2015, hachette, p.7.
Spurious Correlations で紹介しているその他の相関係数:
・「チキンの消費量」と「紙の消費量」の相関係数は 0.996。
・「ティーの消費量」と「芝刈り機による死亡者数」の相関係数は 0.93。
・「魚の消費量」と「KFCの顧客満足度」の相関係数は 0.933。
・「牛肉の消費量」と「雷による死亡者数」の相関係数は 0.87。
・総務省が公開している警察官と犯罪認知件数データ (2014年度) : police_crime2014.csv
・都道府県別人口 1,000人あたりの警察官数 (police)
・都道府県別人口 1,000人あたりの刑法犯罪認知件数 (crime)
・出典:総務省平成26年度地方公共団体定員管理調査関係データ、平成26年度『警察白書』。
library("readr")
police_crime <- read.csv("police_crime2014.csv")
・データの内容を表示してみる
police_crime
pref pref_abr police crime
1 osaka osk 2.625018 17.11
2 fukuoka fko 2.277854 13.12
3 aichi aic 1.914967 13.01
4 hyogo hyo 2.210530 12.73
5 chiba chi 2.071708 12.57
6 kyoto kyo 2.707766 12.22
7 tokyo tok 3.481908 12.15
8 ibaraki iba 1.812279 12.00
9 saitama sai 1.727613 11.63
10 gifu gif 1.903325 10.95
11 shiga shg 1.801624 10.91
12 mie mie 1.867628 10.84
13 okayama oka 2.063853 10.30
14 ehime ehi 2.011308 9.74
15 tochigi toc 1.889488 9.55
16 gunma gun 1.944347 9.52
17 wakayama wak 2.557413 9.38
18 saga sag 2.346063 8.99
19 nara nar 2.014579 8.96
20 yamanashi ymn 2.297239 8.88
21 kochi koc 2.583492 8.85
22 kagawa kaga 2.156104 8.50
23 kanagawa kngw 1.864164 8.46
24 miyagi myg 1.880160 8.32
25 hiroshima hir 2.012582 7.97
26 shizuoka shz 1.881194 7.95
27 tokushoma toks 2.382595 7.62
28 okinawa oki 2.035101 7.61
29 hokkaido hok 2.200545 7.60
30 fukushima fks 2.091778 7.54
31 niigata nii 2.022629 7.49
32 tottori tot 2.505130 7.45
33 yamaguchi ygc 2.510401 7.30
34 miyazaki mzk 2.082634 7.18
35 kumamoto kum 1.938011 7.15
36 nagano nag 1.835954 7.02
37 fukui fki 2.568282 6.69
38 ishikawa ish 1.979315 6.47
39 shimane shm 2.603961 6.28
40 toyama toy 2.097059 5.97
41 kagoshima kgs 2.060214 5.56
42 yamagata ygt 2.046594 5.46
43 oita oit 2.036354 5.37
44 nagasaki nag 2.518819 5.28
45 aomori aom 1.996425 4.93
46 iwate iwa 1.940230 4.48
47 akita aki 2.250593 3.83
・police と crime の散布図を描くと
library("ggplot2")
ggplot(police_crime, aes(crime, police)) +
theme_bw() +
geom_point(size = 1) +
stat_smooth(method = lm, se = FALSE) +
geom_text(aes(y = police + 0.03, label = pref_abr), size = 4, vjust = 0)
・二変数間には正の相関がある。
・一般的な考え・・・「刑法認知件数」→「警察官数」・・・正の因果関係
・従って、二変数の間には次の二つの因果関係が同時に進行していると考えることができる。
・「因果関係がある」と主張するために必要な条件
①比較されているか(トリートメントとコントロールに分類したか?)
②時間軸は考慮しているか(縦断研究か?)
③第三の要因を考慮したか(交絡因子はあるのか?)
・ほとんどの社会現象は、複数の原因が複雑に絡みあって結果を生じさせている(=因果の綾:web of causation)。
・原因を即断するのではなく、他に考えられる原因を見落としていないか慎重に推論する必要がある。
・「一日一食」と「体重減」の関係を考える。
・二変数の間に関係がある場合、まず、次の三つの可能性が考えられる。
・二変数の間に相関関係があるからといって、必ずしも「一日一食」→「体重」という因果関係があるとは限らない。
・体重が減ったために一日一食しか食べられなくなった可能性も排除できない。
・「一日一食」→「体重減」という因果関係が成立するためには、一日一食でない人と比較する必要がある。
・一日二食(あるいは一日三食かそれ以上)の生活習慣の人も体重が減ったかもしれない。
・「一日一食」の場合を「トリートメント」に指定。
・「一日一食」以外の場合を「コントロール」に指定。
・「観察」や「実験」をして比較する。
・「一日一食」→「体重減」という仮説は「コントロール」との比較というエビデンスなしには検証できない。
・「一日一食」と「体重減」という質問を「同時に」行う(=横断研究)。
→どちらが「原因」でどちらが「結果」か判断できない。
・原因と結果は、原因が時間的に先行しなければならない。
・最初に「一日一食ですか?」という質問をする。
・その後、しばらく時間をおいてから(例えば数ヶ月程度)「あなたの体重は?」と質問する(=縦断研究)。
→「因果の逆転」を回避 → 因果関係を判断できる。
・「体重が減った結果、一日一食しか食べれなくなった」可能性を排除できる。
・「一日一食」と「体重」の間には因果関係は存在せず、第三の要因(交絡因子: confounding factor)が存在する可能性がある。
・つまり「病気」だから「一日一食」しか食べられないのであり、「病気」だから体重が落ちたという説明。
・「一日一食」と「体重」の両者に影響を与える「病気」が交絡因子 (confouding factor) 。
・「病気」 →「一日一食」の関係と「病気」 →「体重」の関係が因果関係。
→「一日一食」と「体重」の間の関係は見せかけの相関 (spurious correlation)。
・次の二つの変数の相関を調べてみる
・x 軸・・・選挙区ごとに候補者が費やした選挙費用合計:千万円
・y 軸・・・選挙区ごとの投票率:%
・人工的に架空のデータを作ってみる
set.seed(12345)
# 50%の確率 (.5) で 0 か 1 の値を 100 個、無作為に抽出し comp と名前を付ける
comp <- rbinom(100, 1, .5)
# 選挙費用合計を 100 個、無作為に抽出し money と名前を付ける
# サンプルを取り出す元になる母平均と母標準偏差を任意に指定する
money <- rnorm(100, mean = 0.4 + 0.5*comp, sd = 0.2)
# 投票率を 100 個、無作為に抽出し turnout と名前を付ける
# サンプルを取り出す元になる母平均と母標準偏差を任意に指定する
turnout <- rnorm(100, mean = 0.4 + 0.3*comp, sd = 0.1)
人工的に作り出した三つの変数をデータフレームに入れ df と名前を付け、データを表示する
df <- data.frame(money = money,
turnout = turnout,
comp = as.factor(comp))
head(df)
money turnout comp
1 0.7919228 0.5380672 1
2 1.2895385 0.7548398 1
3 0.9107181 0.7195282 1
4 0.9703326 0.6193502 1
5 0.2658047 0.3891376 0
6 0.4555907 0.3749053 0
tail(df)
money turnout comp
95 0.9031711 0.6893631 1
96 1.0080339 0.7771104 1
97 0.5905416 0.9747404 1
98 1.0699306 0.6916065 1
99 0.5792026 0.4543568 0
100 0.4277382 0.4752861 0
・「選挙費用の合計」を x 軸、「投票率」を y 軸とした散布図と回帰直線を描いてみる
library("ggplot2")
plt <- ggplot(df, aes(x = money, y = turnout)) +
geom_point() +
theme_bw() +
geom_smooth(se = FALSE, method = 'lm') +
labs(x = "Campaign Expenditure (1,000 yen)", y = "turnout (%)")
plt
・両変数には正の相関がありそう
・相関係数を確認すると
cor.test(money, turnout)
Pearson's product-moment correlation
data: money and turnout
t = 7.5656, df = 98, p-value = 2.118e-11
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.4664265 0.7179987
sample estimates:
cor
0.6072149
・money と turnout の相関係数は 0.6072149
- p 値(= 2.118e-11 = 0.00000000002118)
- p 値(= 2.118e-11 = 0.000000002118%)(つまりほぼ%)が意味していること
- 帰無仮説:「x と y の相関係数は 0」が正しいとすれば、このようなデータが出現する確率はほぼ 0 %という意味
- P 値 が a = 0.01(= 1% の有意水準)以下なので、帰無仮説は棄却、対抗仮説を受容する
- つまり、統計的には x と y の相関関係は偶然ではない、という結論になる
・money と turnout の間には正の「相関関係」がある
・しかし、money と turnout の間には正の「因果関係」はあるのか?
・もし両者の間に「因果関係」があり、「選挙費用の合計」が「投票率」を上げているのであれば → 投票率を上げるために、候補者は選挙費用を多く使う必要がある
・ここでは、次の四つの可能性が存在する選挙の接戦度を考慮した結果
・2017年に東京が、一時間あたりの最低賃金を 786円から 830円に引き上げた(架空データ)。
・経済学の理論が予想するように、最低賃金の引き上げは正社員雇用を減らすのか?
・データをロードする
coffee <- read.csv("coffee.csv")
dim(coffee)
[1] 358 8
summary(coffee)
chain location wageBefore wageAfter
doutor : 88 centralTOKYO: 33 Min. :699.0 Min. : 699.0
komeda : 46 KANAGAWA : 67 1st Qu.:699.0 1st Qu.: 830.0
starbucks:149 northTOKYO :146 Median :740.0 Median : 830.0
tullys : 75 shoreTOKYO : 67 Mean :759.3 Mean : 820.8
southTOKYO : 45 3rd Qu.:820.0 3rd Qu.: 830.0
Max. :945.0 Max. :1028.0
fullBefore fullAfter partBefore partAfter
Min. : 0.000 Min. : 0.000 Min. : 0.00 Min. : 0.00
1st Qu.: 2.125 1st Qu.: 2.000 1st Qu.:11.00 1st Qu.:11.00
Median : 6.000 Median : 6.000 Median :16.25 Median :17.00
Mean : 8.475 Mean : 8.362 Mean :18.75 Mean :18.69
3rd Qu.:12.000 3rd Qu.:12.000 3rd Qu.:25.00 3rd Qu.:25.00
Max. :60.000 Max. :40.000 Max. :60.00 Max. :60.00
head(coffee)
chain location wageBefore wageAfter fullBefore fullAfter
1 komeda southTOKYO 740 932 0 5.0
2 starbucks southTOKYO 822 904 10 6.0
3 doutor southTOKYO 740 904 20 15.0
4 starbucks southTOKYO 781 863 10 7.5
5 starbucks southTOKYO 781 863 0 20.0
6 doutor southTOKYO 740 847 5 10.0
partBefore partAfter
1 40 35
2 6 25
3 20 20
4 6 10
5 35 40
6 30 30
・東京で最低賃金法が実施された後に、実際に正社員雇用率が上がったかどうか調べる
・subset()
関数を使って、東京と神奈川県それぞれのデータ (TOKYO と KGW) を抜き出す
TOKYO <- subset(coffee, subset = (location != "KANAGAWA")) # because TOKYO is divided into 4 parts
KGW <- subset(coffee, subset = (location == "KANAGAWA"))
class(TOKYO$wageBefore)
[1] "integer"
class(TOKYO$wageAfter)
[1] "integer"
class(KGW$wageBefore)
[1] "integer"
class(KGW$wageAfter)
[1] "integer"
TOKYO$wageAfter <- as.integer(TOKYO$wageAfter)
KGW$wageAfter <- as.integer(KGW$wageAfter)
head(TOKYO)
## chain location wageBefore wageAfter fullBefore fullAfter
## 1 komeda southTOKYO 740 932 0 5.0
## 2 starbucks southTOKYO 822 904 10 6.0
## 3 doutor southTOKYO 740 904 20 15.0
## 4 starbucks southTOKYO 781 863 10 7.5
## 5 starbucks southTOKYO 781 863 0 20.0
## 6 doutor southTOKYO 740 847 5 10.0
## partBefore partAfter
## 1 40 35
## 2 6 25
## 3 20 20
## 4 6 10
## 5 35 40
## 6 30 30
・最低賃金法が実施される「前」、平均最低賃金が 830円未満の東京の coffee shop の logical value を表示すると
TOKYO_logi <- TOKYO$wageBefore < 830
TOKYO_logi
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE
[23] FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE FALSE
[34] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE FALSE TRUE
[45] TRUE TRUE FALSE TRUE TRUE TRUE FALSE TRUE TRUE FALSE TRUE
[56] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE
[67] FALSE FALSE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE
[78] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[89] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[100] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[111] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[122] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[133] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[144] TRUE TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE TRUE
[155] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[166] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[177] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[188] TRUE TRUE TRUE TRUE FALSE TRUE FALSE TRUE TRUE TRUE TRUE
[199] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[210] TRUE TRUE TRUE TRUE TRUE FALSE FALSE TRUE TRUE TRUE TRUE
[221] TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE
[232] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[243] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE
[254] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[265] TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE
[276] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[287] FALSE FALSE TRUE TRUE TRUE
・最低賃金法が実施される「前」、平均最低賃金が 830円未満の東京の coffee shop の割合=全体に占める TRUE の割合
・“TRUE” = 1, “FALSE” = 0 なので、291 の店舗に占める TRUE の割合 = mean(TOKYO_logi)
mean(TOKYO_logi) #Tokyo before
[1] 0.9106529
・最低賃金法が実施される「前」、東京の coffee shop の 91% 以上が最低賃金 830円未満
・最低賃金法が実施された「後」には、
mean(TOKYO$wageAfter < 830) #Tokyo after
[1] 0.003436426
・最低賃金 830円未満は、わずか 0.34%。
・最低賃金法が実施された「後」、東京の coffee shop のほとんどが最低賃金 830円以上になった
・同様に、最低賃金法が実施される「前」、平均最低賃金が 830円未満の神奈川の coffee shop の割合は
mean(KGW$wageBefore < 830) # KGW before
[1] 0.9402985
・最低賃金法が実施される「前」、神奈川の coffee shop の 94% 以上が最低賃金 830円未満
・最低賃金法が実施された「後」には、
mean(KGW$wageAfter < 830) # KGW after
[1] 0.9552239
・東京で最低賃金法が実施された前も後も、神奈川県では最低賃金 830円未満の coffee shop の割合はいずれも高い (約 94% と約 96%)
・東京とは全く異なる結果
最低賃金を上げる → 雇用コストが上がる → 経費削減のため正社員を減らす
・ここでは東京に隣接した神奈川の coffee shop をコントロールと見なす
・東京における「最低賃金引き上げ」が「正社員雇用率」に与える因果的影響を推定する
・最低賃金引き上げ後における東京と神奈川における正社員率 (fullPropAfter) を計算し、data.frame に加える
TOKYO$fullPropAfter<- TOKYO$fullAfter / (TOKYO$fullAfter + TOKYO$partAfter)
KGW$fullPropAfter <- KGW$fullAfter / (KGW$fullAfter + KGW$partAfter)
・TOKYO, KGW それぞれの data.frame を確認してみると、fullProfAfter が新たに加えられていることがわかる
head(TOKYO)
chain location wageBefore wageAfter fullBefore fullAfter
1 komeda southTOKYO 740 932 0 5.0
2 starbucks southTOKYO 822 904 10 6.0
3 doutor southTOKYO 740 904 20 15.0
4 starbucks southTOKYO 781 863 10 7.5
5 starbucks southTOKYO 781 863 0 20.0
6 doutor southTOKYO 740 847 5 10.0
partBefore partAfter fullPropAfter
1 40 35 0.1250000
2 6 25 0.1935484
3 20 20 0.4285714
4 6 10 0.4285714
5 35 40 0.3333333
6 30 30 0.2500000
head(KGW)
chain location wageBefore wageAfter fullBefore fullAfter partBefore
46 starbucks KANAGAWA 699 1028 8 6 28
47 komeda KANAGAWA 822 863 20 0 20
48 starbucks KANAGAWA 740 830 20 25 55
49 starbucks KANAGAWA 822 822 10 26 17
50 starbucks KANAGAWA 822 822 40 9 30
51 starbucks KANAGAWA 801 822 0 15 25
partAfter fullPropAfter
46 20 0.2307692
47 36 0.0000000
48 10 0.7142857
49 9 0.7428571
50 32 0.2195122
51 15 0.5000000
・最低賃金引き上げ後における東京の正社員雇用率平均は
mean(TOKYO$fullPropAfter)
[1] 0.320401
・最低賃金引き上げ後における神奈川の正社員雇用率平均は
mean(KGW$fullPropAfter)
[1] 0.2722821
・最低賃金引き上げ後における東京の正社員雇用率平均と神奈川の正社員率平均の差は
# compute the difference-in-means
mean(TOKYO$fullPropAfter) - mean(KGW$fullPropAfter)
[1] 0.04811886
・バイアスは因果推論を妨げる
・バイアスとは・・・真実を歪ませる情報の偏りや考え方
・三種類のバイアス
・情報をやりとりする場で見られるバイアス
・情報に偏りを生じさせるバイアス
・追従(おべっか)バイアス・機嫌取りバイアス
・相手に好かれたいと思うときに見られる
・「全国津々浦々から福田福田の声があがっている」(福田赳夫首相の勘違い、1978年)
・「フレーム効果 (framing effect)」: 同じ事実でも、数字の示し方によって印象が変わること
(a) 「当選の確率は60%」・・・前向な印象を与える
(b) 「落選の確率は40%」・・・ネガティブな印象を与える
・ネガティブなことの方が過大に評価されがち
・調査のために選んだ被験者と選ばなかった被験者の性質の差に起因するバイアス
・1936年アメリカ大統領選挙
・Literary Digest誌・・・230万人から得た世論調査 → Landon 候補が 370万票で当選と予想
・Gallup社・・・5万人から得た世論調査 → Rosevelt 候補の当選を予想
・結果:Rosevelt が圧勝
・literary Digest誌が予測を誤った理由
→ 偏った被験者に世論調査を実施したため:
(1) Literary Digest誌の読者 → 共和党支持者が多かった
(2) 電話帳や自動車登録名簿から被験者を選んだ
→ 当時、電話帳や自動車を所有していたのは経済的に恵まれた層の有権者
→ 調査対象者にバイアスがあったため、世論調査結果が偏った
・交絡因子:トリートメントと結果変数の両方と関係している変数
・単純な二者関係にみえる因果関係に、交絡因子がからんでいるときに生じるバイアス
・次節で詳しく論じる。
結果に与える要因に関して、トリートメントとコントロールは「トリートメントであるかないか」以外、類似している
・東京でだけ coffee shop 間で激しい競争関係がある場合
・そのような産業 = 交絡因子 (confounding factor) になり得る
・交絡因子:トリートメントと結果変数の両方と関係している変数
→神奈川の coffee shop は、東京の coffee shop に対して適切なコントロールとは言えない
→東京と神奈川の coffee shop は比較できない
→「東京での最低賃金引き上げが神奈川での正社員雇用率を若干高めている(結論)」とは言えない
・最低賃金引き上げ前に東京と神奈川の coffee shop の間には様々な違いがあるはず
・その違いが結果に影響を与えている限り、推定にバイアスを与える可能性がある:
・そのようなバイアス・・・交絡因子バイアス (confounding bias)
・交絡因子があると、トリートメント効果の推定において交絡因子バイアスを引き起こしうる
・観察研究では、このようなセレクション・バイアス (selection bias) が起こりうる
・その理由 → 調査を行う研究者がトリートメントの割当に関してコントロールできないから
・例えば、東京では最低賃金引き上げ法を可決されたが、神奈川では可決されていない
・それには政治的な理由、経済的な理由、あるいは雇用に関する理由があるはず
・もしそうなら、最低賃金引き上げ後における東京と神奈川を単純に比較することはセレクション・バイアスを引き起こしうる
・トリートメントの割当に関してセレクション・バイアスが存在する
→トリートメントとコントロールは観察される(されない)特徴において重要な違いが存在する
→トリートメントとコントロールの間で観察された結果の違いが、トリートメントの条件によって引き起こされたのか、それとも交絡因子によるものなのか判断できない
・観察研究では、交絡因子バイアスの可能性を完全に排除できない
・しかし、統計的にコントロール (statistical control) することによって対処できる
・その一つの方法・・・細分類 (subclassification)
・共通の価値をもつ部分集合内で比較することで、トリートメントとコントロールを出来るだけ類似したものに方法
・例えば、東京と神奈川におけるカフェ全体に占める Starbucks の割合を調べてみる
・東京のスターバックスの件数と割合は
table(TOKYO$chain)
doutor komeda starbucks tullys
73 35 118 65
prop.table(table(TOKYO$chain))
doutor komeda starbucks tullys
0.2508591 0.1202749 0.4054983 0.2233677
・神奈川のスターバックスの件数と割合は
table(KGW$chain)
doutor komeda starbucks tullys
15 11 31 10
prop.table(table(KGW$chain))
doutor komeda starbucks tullys
0.2238806 0.1641791 0.4626866 0.1492537
・カフェ全体に占める Starbucks の割合は神奈川 (46%) の方が東京 (40%) より高い
・もし、Starbucks が他の coffee shop と異なる採用方針(例えば、より熱心な正社員を雇うなど)なら、神奈川と東京におけるこの違いは「最低賃金の引き上げ」と「正社員の割合」の関係を交絡させる可能性がある
・この可能性を排除する解決策
→ Starbucks だけを比較する
・Starbucks だけを比較する(= 統計的なコントロール)
→ coffee shop の違いによる交絡因子を排除できる
・最低賃金の引き上げ後の、東京と神奈川それぞれにおける Starbucks の正社員率を比較する
・東京における Starbucks の職員だけを sebset()
関数を使って抜き出す
TOKYO.sb <- subset(TOKYO, subset = (chain == "starbucks"))
・神奈川における Starbucks の職員だけを sebset()
関数を使って抜き出す
KGW.sb <- subset(KGW, subset = (chain == "starbucks"))
・東京の Starbucks における正社員の職員の割合と神奈川の Burger Kin における正社員の職員の割合の差は
mean(TOKYO.sb$fullPropAfter) - mean(KGW.sb$fullPropAfter)
[1] 0.03643934
・Starbucks における正社員の割合と神奈川の Starbucks における正社員の割合の差は 3.6 % points だとわかる
・Starbucks を含めた全ての coffee shop の東京の正社員率の平均と神奈川の正社員率の平均の差は
# compute the difference-in-means
mean(TOKYO$fullPropAfter) - mean(KGW$fullPropAfter)
[1] 0.04811886
・Starbucks における東京と神奈川の正社員率の平均の差・・・ 3.6 % points
・Starbucks を含めた全ての coffee shop における東京と神奈川の正社員率の平均の差・・・ 4.8 % points
結論
・両者に大きな差がない = coffee shop の違いは交絡因子ではないらしい
・都道府県単位では正確な比較ができないのでは
・東京と神奈川は隣接県
・東京と神奈川全体を比較するのではなく、経済状況が類似した都道府県境のエリアを比較する
・その方がより説得力のある比較ができるはず
・解決策
→ coffee shop の位置に配慮して細分類する
・東京の location のサマリーを表示
summary(TOKYO$location)
centralTOKYO KANAGAWA northTOKYO shoreTOKYO southTOKYO
33 0 146 67 45
・東京は北から次の四つに分類されている
(1) northTOKYO・・・神奈川に遠い地域
(2) shoreTOKYO・・・東京の湾岸地域
(3) centralTOKYO・・・東京の中央地域
(4) southTOKYO・・・神奈川に近い地域
・東京の coffee shop を「神奈川に近い地域」だけに限定して分析する
TOKYO.sb.subset <- subset(TOKYO.sb, subset = ((location == "southTOKYO")))
・神奈川県に近い東京南部 (southTOKYO) Starbucks と神奈川の Starbucks 正社員率の平均の差は
mean(TOKYO.sb.subset$fullPropAfter) - mean(KGW.sb$fullPropAfter)
[1] 0.0280725
・神奈川に近い東京地域の Starbucks と神奈川の正社員率の平均の差・・・ 3.1 % points
・Starbucks における東京と神奈川の正社員率の平均の差・・・ 2.8 % points
結論
・両者に大きな差がない= レストランの位置が交絡因子ではないらしい
・独立変数を変化させる前と後で従属変数の変化を観察し,従属変数の変化が独立変数の変化によるものかどうかを判断する = QUASI-EXPERIMENT。
・パネル・データ(あるいは longitudinal data)とは「時間をクロスしたデータ」
(= 時系列データのハイブリッド版)
・クロス・セクション・データ (cross section data)とは、一時点において複数の対象の情報を横断的に集めたデータ
・最低賃金と失業率の因果関係を分析する方法は一つではない
(1) 法律の実施前後における「東京の最低賃金」と「神奈川の正社員雇用率」を比較(上記)
(2) 法律の実施前後における「東京内の最低賃金」と正社員雇用率を比較・・・before-and-after design
法律改訂前における東京の正社員雇用率
TOKYO$fullPropBefore <- TOKYO$fullBefore / (TOKYO$fullBefore + TOKYO$partBefore)
東京における法律改定後と前における最低賃金平均の差
TOKYOdiff <- mean(TOKYO$fullPropAfter) - mean(TOKYO$fullPropBefore)
TOKYOdiff
[1] 0.02387474
before-and-after design を使う利点
・都道府県ごとに比較するため、各都道府県特有の交絡因子 (confounding factor) をコントロールできる
before-and-after design を使う欠点
・時を追って変化する交絡因子が推定にバイアスをもたらす
・もし東京の経済が上向き傾向にあれば、最低賃金法の改定がなくても、最低賃金は上がるはず
・推定にバイアスが生じてしまう
・before-and-after design は「東京の経済が上向き傾向にある」といった「交絡因子は存在しない」ということを前提にして成り立つ
・反事実的な結果・・・東京が最低賃金法を実施しなかった場合に観察される正社員雇用率(緑の点線)
・東京が最低賃金法を実施しなかった場合、東京は神奈川と同じような経済トレンドのはず、と想定
・緑の点線は、東京が最低賃金法を実施しなかった場合、東京が体験するであろう反事実的な結果
・この結果は、観察されたコントロール (神奈川県) のタイム・トレンドとパラレルと想定
・東京の coffee shop のサンプル平均因果影響 (Sample averageトリートメントeffect: SATT) を求める
・sample average treatment effect for the treated: SATT = DiD デザイン下で計算される推定値 = Average causal effect estimate
・「差の差」(difference-in-differences)
・最低賃金法の実施前後に観察された東京での正社員雇用の割合の差:トリートメント間の差
・最低賃金法の実施前後に観察された神奈川での正社員雇用の割合の差: コントロール間の差
・DiD estimate を計算するためには、上図の A, B, C, D の値を計算する必要がある
・最低賃金引き上げ前の東京と神奈川における正社員率 (fullPropAfter) を計算し、data.frame に加える
TOKYO$fullPropBefore<- TOKYO$fullBefore / (TOKYO$fullBefore + TOKYO$partBefore)
KGW$fullPropBefore <- KGW$fullBefore / (KGW$fullBefore + KGW$partBefore)
・二つのデータフレーム (TOKYOと KGW) を確認
head(TOKYO)
chain location wageBefore wageAfter fullBefore fullAfter
1 komeda southTOKYO 740 932 0 5.0
2 starbucks southTOKYO 822 904 10 6.0
3 doutor southTOKYO 740 904 20 15.0
4 starbucks southTOKYO 781 863 10 7.5
5 starbucks southTOKYO 781 863 0 20.0
6 doutor southTOKYO 740 847 5 10.0
partBefore partAfter fullPropAfter fullPropBefore
1 40 35 0.1250000 0.0000000
2 6 25 0.1935484 0.6250000
3 20 20 0.4285714 0.5000000
4 6 10 0.4285714 0.6250000
5 35 40 0.3333333 0.0000000
6 30 30 0.2500000 0.1428571
head(KGW)
chain location wageBefore wageAfter fullBefore fullAfter partBefore
46 starbucks KANAGAWA 699 1028 8 6 28
47 komeda KANAGAWA 822 863 20 0 20
48 starbucks KANAGAWA 740 830 20 25 55
49 starbucks KANAGAWA 822 822 10 26 17
50 starbucks KANAGAWA 822 822 40 9 30
51 starbucks KANAGAWA 801 822 0 15 25
partAfter fullPropAfter fullPropBefore
46 20 0.2307692 0.2222222
47 36 0.0000000 0.5000000
48 10 0.7142857 0.2666667
49 9 0.7428571 0.3703704
50 32 0.2195122 0.5714286
51 15 0.5000000 0.0000000
・最低賃金引き上げ後における東京の正社員雇用率 (fullProfBefore) の平均・・・ C
C <- mean(TOKYO$fullPropAfter)
C
[1] 0.320401
・最低賃金引き上げ前における東京の正社員雇用率 (fullProfBefore) の平均・・・ B
B <- mean(TOKYO$fullPropBefore)
B
[1] 0.2965262
・最低賃金引き上げ後における神奈川の正社員雇用率 (fullProfBefore) の平均・・・ D
D <- mean(KGW$fullPropAfter)
D
[1] 0.2722821
・最低賃金引き上げ前における神奈川の正社員雇用率 (fullProfBefore) の平均・・・ A
A <- mean(KGW$fullPropBefore)
A
[1] 0.3099657
\[DiD estimate = (C - B) - (D - A)\] \[ = (0.320401 - 0.2965262) - (0.2722821 - 0.3099657) = 0.06155831\]
DiD.estimate <- (C - B) - (D - A)
DiD.estimate
[1] 0.06155831
・東京の coffee shop では最低賃金が上がると正社員雇用の割合が 6.16 % points 上がる
・差の差の推定量・・・直感的だが、実際の測定が比較的簡単
・極めて有益な政策評価方法
・必ずしもパネル・データを必要としない
・繰り返しクロスセクションデータがあれば十分