1. ダミー変数を使ってわかること (Putnam)
- 1.1 南北格差ダミーと経済の近代化
- 1.2 南北格差ダミーと社会関係資本

2. ダミー変数を使ってわかること(衆院選挙)
- 2.1 連続変数とダミー変数を使った単回帰分析
- 2.2 連続変数と連続変数を使った単回帰分析
- 2.3 ダミー変数を含めた重回帰分析

3. 宿題

References

1. ダミー変数を使ってわかること (Putnam)

・ダミー変数 (dummy variable) とは

・ある属性があるかどうかを示す二値変数
・特定のカテゴリーに属している場合・・・1
・そのカテゴリーに属さない場合・・・0
例)
・性別(女性 = 1、男性 = 0)
・選挙結果(当選 = 1、落選 = 0)
・社会の状態(戦時 = 1、平和時 = 0)
・州の位置(北部 = 1、南部 = 0)

リサーチクエスチョン:

「イタリア地方政府のパフォーマンスに著しい違いがあるのはなぜか?」

理論: Social Capital(社会関係資本)が政府のパフォーマンスを高める。

・地方政府のパフォーマンスの違いは、その地域の社会関係資本の蓄積の度合いによって説明できる。
・「社会関係資本」・・・個人の結びつき → 互恵性の社会ネットワークや規範
(=見知らぬ相手と協力関係を構築する一助となるもの)

・社会関係資本の蓄積の高い地域
→ 互いに信頼し協力しあう
→ 政府のパフォーマンスを高める

【応答変数】
・「政府のパフォーマンス」を作業化 ⇒ gov_p : 12の指標から構成
1) 地方政府の内閣の安定性
2) 予算通過の早さ
3) 統計・情報サービスの提供

【説明変数】
・「社会関係資本の蓄積の度合」を作業化 ⇒ cc: Civic Community Index(市民共同体指標)
1) 比例代表での個人名記入投票の割合 = Clientelism(政治的恩顧主義)の度合
2) 住民投票での投票率 = 地域社会への関心の度合
3) 新聞購読者の割合 = 市民的な熟慮能力の度合
4) スポーツ・文化団体の割合 = 市民の社交的生活の度合

仮説
もしこの理論が正しいなら、
cc (市民共同体指標)が大きくなるほど gov_p(政府のパフォーマンス)も大きくなるはず

応答変数:gov_p(政府のパフォーマンス)

説明変数:cc(Civic Community Index 市民共同体指標)

コントロール変数:econ(地方政府の経済指標)大きい程、経済が良好

1.1 南北格差ダミーと経済の近代化

【イタリアにおける南北格差を考慮する】

Goldberg (1996) による Putnam (1994)への批判
・イタリアにおいて北部と南部とは全く異なる歴史、伝統、文化をもつ
・政治、経済、社会の状態の違いはすべて南北地域の違いで説明できる
・社会関係資本の蓄積の度合は、南北の地域の違いを反映している
・分析において、南北の地域差を考慮する必要がある
・北部 → 社会関係資本が多い  → 政府のパフォーマンスが高い
・南部 → 社会関係資本が少ない → 政府のパフォーマンスが低い

Question 1:

社会関係資本の蓄積の度合 (cc) は南北の地域の違い (location) を反映しているだけであって、政府のパフォーマンス (gov_p) とは無関係なのでは?

このセクションの分析で使うデータ putnam.csv をダウンロードし、RProject Folder に保存する。

library("readr")
putnam <- read.csv("putnam.csv")
putnam
   region gov_p   cc econ location
1      Ab   7.5  8.0  7.0    south
2      Ba   7.5  4.0  3.0    south
3      Cl   1.5  1.0  3.0    south
4      Cm   2.5  2.0  6.5    south
5      Em  16.0 18.0 13.0    north
6      Fr  12.0 17.0 14.5    north
7      La  10.0 13.0 12.5    north
8      Li  11.0 16.0 15.5    north
9      Lo  11.0 17.0 19.0    north
10     Ma   9.0 15.5 10.5    north
11     Mo   6.5  3.5  2.5    south
12     Pi  13.0 15.5 17.0    north
13     Pu   5.5  3.5  4.0    south
14     Sa   5.5  8.5  8.5    south
15     Si   4.5  3.5  5.5    south
16     To  13.0 17.5 14.5    north
17     Tr  11.0 18.0 12.5    north
18     Um  15.0 15.5 11.0    north
19     Va  10.0 15.0 15.0    north
20     Ve  11.0 15.0 13.5    north

データ
・region : イタリアの地方政府の略称
・gov_p : 政府のパフォーマンス
・cc : Civic Community Index(市民共同体指標)
・econ : 地方政府の経済指標(大きい程、経済が良好)
・location: イタリア北部地域ダミー(北部なら north、南部なら south)

・政府のパフォーマンスが南北地域間で異なるかどうか t 検定する。

・パイプ(%>%)を使うためのパッケージをロード

library("dplyr")  

・データフレーム putnam から gov_p と location 二つの変数だけを選び gl と名前をつける

gl <- putnam %>%  
  select(gov_p, location)

gl
   gov_p location
1    7.5    south
2    7.5    south
3    1.5    south
4    2.5    south
5   16.0    north
6   12.0    north
7   10.0    north
8   11.0    north
9   11.0    north
10   9.0    north
11   6.5    south
12  13.0    north
13   5.5    south
14   5.5    south
15   4.5    south
16  13.0    north
17  11.0    north
18  15.0    north
19  10.0    north
20  11.0    north

・箱ひげ図を描く

library("ggplot2")

・視覚的に南北間で政府のパフォーマンスに明らかに差があることがわかる。
・政府のパフォーマンスのデータは unpaired だから default で t 検定する。

t.test(gl$gov_p[gl$location == "north"],
       gl$gov_p[gl$location == "south"])

    Welch Two Sample t-test

data:  gl$gov_p[gl$location == "north"] and gl$gov_p[gl$location == "south"]
t = 6.8253, df = 14.552, p-value = 6.737e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 4.607777 8.808890
sample estimates:
mean of x mean of y 
 11.83333   5.12500 

Question 1 結果:

・北部 gov_pの平均値 ・・・11.833
・南部の gov_pの平均値・・・5.125
・その差 -6.708は1%水準で統計的に有意
→Goldberg (1996) が主張するように、政府のパフォーマンスには南北地域差あり

Question 2:

・経済の近代化の度合 (econ) が高い地域ほど政府のパフォーマンス (gov_p) が高い。
・これは南北地域「内」でもみられるか?
・econ と gov_p の散布図を描く。 

ggplot(putnam, aes(econ, gov_p)) +
  geom_point() +
  theme_bw() +
  labs(x = "Economic Situation", y = "Government Performance",
         title = "Government Performance and Economic Situation") + 
  stat_smooth(method = lm, se = FALSE)   # se = FALSE → 95% 信頼区間を消す

・経済の近代化の度合いと政府のパフォーマンス (gov_p) には正の相関がある。

・econ と gov_p には正の相関がある。
・地方政府の経済指標 (econ) が高い地域ほど、政府のパフォーマンス (gov_p) が高い。

・回帰式を求めると

model_econ <- lm(gov_p ~ econ, data = putnam)

summary(model_econ)

Call:
lm(formula = gov_p ~ econ, data = putnam)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.3386 -1.7733  0.0086  0.8336  5.5114 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   3.0108     1.3847   2.174 0.043264 *  
econ          0.5889     0.1200   4.909 0.000113 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.659 on 18 degrees of freedom
Multiple R-squared:  0.5724,    Adjusted R-squared:  0.5487 
F-statistic:  24.1 on 1 and 18 DF,  p-value: 0.0001131

\(\mathrm{\widehat{gov_p}\ = 3.01 + 0.589econ}\)

・変数 location は charactor なので、0, 1 のダミー変数に変換する。
・変換後のデータフレームに putnam_1 と名前を名前を付ける。

library("dplyr") # mutate()関数を使うためのパッケージをロードする   

・location を 0, 1 のダミー変数に変換し、データフレーム名を putnam_1 とする。

putnam_1 <- mutate(putnam,  # 変数 location を north = 1, south = 0 に変換  
                 location = as.numeric(location == "north"))
head(putnam_1) #変換したデータをの一部を表示
  region gov_p cc econ location
1     Ab   7.5  8  7.0        0
2     Ba   7.5  4  3.0        0
3     Cl   1.5  1  3.0        0
4     Cm   2.5  2  6.5        0
5     Em  16.0 18 13.0        1
6     Fr  12.0 17 14.5        1

・経済の近代化の度合 (econ) が高い地域ほど、政府のパフォーマンス (gov_p) が高い。
・これが南北地域「内」でもみられるかどうかを確認するためには、
→モデルに econ と location ダミーを同時に入れて重回帰分析を行う必要がある。

model_1 <- lm(gov_p ~ econ + location, data = putnam_1)

・分析結果を表示する。

summary(model_1)

Call:
lm(formula = gov_p ~ econ + location, data = putnam_1)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.6638 -1.1011 -0.2199  1.2497  4.1464 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  5.22207    1.34660   3.878  0.00121 **
econ        -0.01941    0.22037  -0.088  0.93083   
location     6.88386    2.22907   3.088  0.00667 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.19 on 17 degrees of freedom
Multiple R-squared:  0.7261,    Adjusted R-squared:  0.6939 
F-statistic: 22.53 on 2 and 17 DF,  p-value: 1.659e-05

この結果から、次の標本回帰関数 (SRF) の回帰式が得られる。

\(\mathrm{\widehat{gov_p}\ = 5.22 - 0.019econ + 6.88location}\)

・経済の近代化の度合 (econ) はgov_pに有意な影響を与えていない。
・北部地域だとgov_pを 6.88 ポイント上げる。1%水準で有意。

・location ダミーによって統制すると、次の二つの(傾きの等しい)回帰式を得る。

南部 (loation = 0) なら、

\(\mathrm{\widehat{gov_p}\ = 5.22 - 0.019econ}\)

北部 (location = 1) なら、

\(\mathrm{\widehat{gov_p}\ = 12.11 - 0.019econ}\)

・以上の結果を散布図で表してみる。

全体で見ると(上図左)、経済の近代化の度合 (econ)が高くなるにつれて政府のパフォーマンス (gov_p) が高い:(slopeが右肩上がり)
・しかし、南北地域別に見ると(上図右)、経済の近代化の度合 (econ) は政府のパフォーマンス (gov_p) に影響を与えていない(slopeはむしろマイナス)
・location は 1% 水準で統計的に有意
⇒ 北部地域の方が南部地域よりgov_pが 6.88 ポイント高い
・econ は 5% 水準でも統計的に有意ではない
⇒ 南北地域ダミー (north) を考慮すると、経済の近代化の度合 (econ) が政府のパフォーマンス (gov_p) に対する影響が消える

⇒ 経済の近代化の度合 (econ) と政府のパフォーマンス (gov_p)は偽の関係 (spurious relation)

Question 2 結果:

イタリアでは南北の(文化的)違いによって多くのことが説明できる(Goldberg, 1996)という主張は正しい

1.2 南北格差ダミーと社会関係資本

Question 3:

社会関係資本 (cc) が政府のパフォーマンス (gov_p) に影響を与えるという Putnam (1994) の主張は、南北地域差 (location) を考慮しても成立するのか?

・cc と gov_p の散布図を描く。

ggplot(putnam, aes(cc, gov_p)) +
  geom_point() +
  theme_bw() +
  labs(x = "Civic Community Index", y = "Government Performance",
         title = "Government Performance and Civic Community Index") + 
  stat_smooth(method = lm, se = FALSE)   # se = FALSE → 95% 信頼区間を消す