分析に必要なパッケージをロードする

library(tidyverse)
library(stargazer)
library(margins)
library(DT)
library(interplot)
library(haven)

1. ダミー変数でわかること (Putnamデータ)

・ある属性があるかどうかを示す二値変数
・特定のカテゴリーに属している場合・・・1
・そのカテゴリーに属さない場合・・・0
例)
・性別(女性 = 1、男性 = 0)
・選挙結果(当選 = 1、落選 = 0)
・社会の状態(戦時 = 1、平和時 = 0)
・州の位置(北部 = 1、南部 = 0)

リサーチクエスチョン:
「イタリア地方政府のパフォーマンスに著しい違いがあるのはなぜか?」

理論: Social Capital(社会関係資本)が政府のパフォーマンスを高める。

・地方政府のパフォーマンスの違いは、その地域の社会関係資本の蓄積の度合いによって説明できる。
・「社会関係資本」・・・個人の結びつき → 互恵性の社会ネットワークや規範
(=見知らぬ相手と協力関係を構築する一助となるもの)

・社会関係資本の蓄積の高い地域
→ 互いに信頼し協力しあう
→ 政府のパフォーマンスを高める

【応答変数】
・「政府のパフォーマンス」を作業化 ⇒ gov_p : 12の指標から構成
1) 地方政府の内閣の安定性
2) 予算通過の早さ
3) 統計・情報サービスの提供

【説明変数】
・「社会関係資本の蓄積の度合」を作業化 ⇒ cc: Civic Community Index(市民共同体指標)
1) 比例代表での個人名記入投票の割合 = Clientelism(政治的恩顧主義)の度合
2) 住民投票での投票率 = 地域社会への関心の度合
3) 新聞購読者の割合 = 市民的な熟慮能力の度合
4) スポーツ・文化団体の割合 = 市民の社交的生活の度合

仮説
もしこの理論が正しいなら、
cc (市民共同体指標)が大きくなるほど gov_p(政府のパフォーマンス)も大きくなるはず

応答変数:gov_p(政府のパフォーマンス)

説明変数:cc(Civic Community Index 市民共同体指標)

コントロール変数:econ(地方政府の経済指標)大きい程、経済が良好

1.1 南北格差ダミーと経済の近代化

【イタリアにおける南北格差を考慮する】

Goldberg (1996) による Putnam (1994)への批判
・イタリアにおいて北部と南部とは全く異なる歴史、伝統、文化をもつ
・政治、経済、社会の状態の違いはすべて南北地域の違いで説明できる
・社会関係資本の蓄積の度合は、南北の地域の違いを反映している
・分析において、南北の地域差を考慮する必要がある
・北部 → 社会関係資本が多い  → 政府のパフォーマンスが高い
・南部 → 社会関係資本が少ない → 政府のパフォーマンスが低い

Question 1:
社会関係資本の蓄積の度合 (cc) は南北の地域の違い (location) を反映しているだけであって、政府のパフォーマンス (gov_p) とは無関係なのでは?

このセクションの分析で使うデータ putnam.csv をダウンロードし、RProject Folder に保存する。

library("tidyverse")
library("ggsignif")
library("stargazer")
df1 <- read_csv("putnam.csv")
df1
# A tibble: 20 x 5
   region gov_p    cc  econ location
   <chr>  <dbl> <dbl> <dbl> <chr>   
 1 Ab       7.5   8     7   south   
 2 Ba       7.5   4     3   south   
 3 Cl       1.5   1     3   south   
 4 Cm       2.5   2     6.5 south   
 5 Em      16    18    13   north   
 6 Fr      12    17    14.5 north   
 7 La      10    13    12.5 north   
 8 Li      11    16    15.5 north   
 9 Lo      11    17    19   north   
10 Ma       9    15.5  10.5 north   
11 Mo       6.5   3.5   2.5 south   
12 Pi      13    15.5  17   north   
13 Pu       5.5   3.5   4   south   
14 Sa       5.5   8.5   8.5 south   
15 Si       4.5   3.5   5.5 south   
16 To      13    17.5  14.5 north   
17 Tr      11    18    12.5 north   
18 Um      15    15.5  11   north   
19 Va      10    15    15   north   
20 Ve      11    15    13.5 north   

データ
・region : イタリアの地方政府の略称
・gov_p : 政府のパフォーマンス
・cc : Civic Community Index(市民共同体指標)
・econ : 地方政府の経済指標(大きい程、経済が良好)
・location: イタリア北部地域ダミー(北部なら north、南部なら south)

・政府のパフォーマンスが南北地域間で異なるかどうか t 検定する。

・箱ひげ図を描く

df1 %>% 
  ggplot(aes(x = location, y = gov_p, fill = location)) +
    geom_boxplot() 

・視覚的に南北間で政府のパフォーマンスに明らかに差がある
・政府のパフォーマンスのデータは unpaired だから default で t 検定する

t.test(df1$gov_p[df1$location == "north"],
       df1$gov_p[df1$location == "south"])

    Welch Two Sample t-test

data:  df1$gov_p[df1$location == "north"] and df1$gov_p[df1$location == "south"]
t = 6.8253, df = 14.552, p-value = 6.737e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 4.607777 8.808890
sample estimates:
mean of x mean of y 
 11.83333   5.12500 

Question 1 結果:
・北部 gov_pの平均値 ・・・11.833
・南部の gov_pの平均値・・・5.125
・その差 -6.708は1%水準で統計的に有意 (p-value = 6.737e-06)
→Goldberg (1996) が主張するように、政府のパフォーマンスには南北地域差あり

Question 2:
・経済の近代化の度合 (econ) が高い地域ほど政府のパフォーマンス (gov_p) が高い
・これは南北地域「内」でもみられるか?
・econ と gov_p の散布図を描く 

df1 %>% 
  ggplot(aes(econ, gov_p)) +
  geom_point() +
  theme_bw() +
  labs(x = "Economic Situation", y = "Government Performance",
         title = "Government Performance and Economic Situation") + 
  stat_smooth(method = lm, se = FALSE)   # se = FALSE → 95% 信頼区間を消す

・経済の近代化の度合いと政府のパフォーマンス (gov_p) には正の相関がある
・econ と gov_p には正の相関がある
・地方政府の経済指標 (econ) が高い地域ほど、政府のパフォーマンス (gov_p) が高い
・回帰式を求める

model_1 <- lm(gov_p ~ econ, data = df1)

summary(model_1)

Call:
lm(formula = gov_p ~ econ, data = df1)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.3386 -1.7733  0.0086  0.8336  5.5114 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   3.0108     1.3847   2.174 0.043264 *  
econ          0.5889     0.1200   4.909 0.000113 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.659 on 18 degrees of freedom
Multiple R-squared:  0.5724,    Adjusted R-squared:  0.5487 
F-statistic:  24.1 on 1 and 18 DF,  p-value: 0.0001131
\(\mathrm{\widehat{gov_p}\ = 3.01 + 0.589econ}\)

・df1に含まれる変数 location は charactor なので、0, 1 のダミー変数に変換する
・変換後のデータフレームに df2 と名前を名前を付ける

df2 <- mutate(df1, location = as.numeric(location == "north" )) 
                               # north = 1, south = 0 に変換 
head(df2) #変換したデータをの一部を表示
# A tibble: 6 x 5
  region gov_p    cc  econ location
  <chr>  <dbl> <dbl> <dbl>    <dbl>
1 Ab       7.5     8   7          0
2 Ba       7.5     4   3          0
3 Cl       1.5     1   3          0
4 Cm       2.5     2   6.5        0
5 Em      16      18  13          1
6 Fr      12      17  14.5        1

・経済の近代化の度合 (econ) が高い地域ほど、政府のパフォーマンス (gov_p) が高い
・これが南北地域「内」でもみられるかどうかを確認するためには、
→モデルに econ と location ダミーを同時に入れて重回帰分析を行う必要がある

model_2 <- lm(gov_p ~ econ + location, data = df2)

・分析結果を表示する

summary(model_2)

Call:
lm(formula = gov_p ~ econ + location, data = df2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.6638 -1.1011 -0.2199  1.2497  4.1464 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  5.22207    1.34660   3.878  0.00121 **
econ        -0.01941    0.22037  -0.088  0.93083   
location     6.88386    2.22907   3.088  0.00667 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.19 on 17 degrees of freedom
Multiple R-squared:  0.7261,    Adjusted R-squared:  0.6939 
F-statistic: 22.53 on 2 and 17 DF,  p-value: 1.659e-05

この結果から、次の標本回帰関数 (SRF) の回帰式が得られる

\(\mathrm{\widehat{gov_p}\ = 5.22 - 0.019econ + 6.88location}\)

・経済の近代化の度合 (econ) はgov_pに有意な影響を与えていない
・北部地域だとgov_pを 6.88 ポイント上げる。1%水準で有意

・location ダミーによって統制すると、次の二つの(傾きの等しい)回帰式を得る

南部 (loation = 0) なら、

\(\mathrm{\widehat{gov_p}\ = 5.22 - 0.019econ}\)

北部 (location = 1) なら、

\(\mathrm{\widehat{gov_p}\ = 12.11 - 0.019econ}\)

・以上の結果を散布図で表してみる。