1. データの準備
2. 棒グラフ
-2. Exercise
3. ヒストグラム
3.1 デフォルトのヒストグラム
3.2 ggplot を使った様々なヒストグラム
-3. Exercise
4. 歪度(わいど)と尖度(せんど)
5. 幹葉図
-5. Exercise
6. 箱ひげ図
-6. Exercise
7. 散布図
7.1 さまざまな散布図
7.2 散布図の中に日本語を表示させる
7.3 米国下院の政治的二極化(経済的次元・人種的次元)
-7. Exercise
8. 特定のデータだけ抜き出す方法
9. ggplot2 のグラフ設定 (Macユーザ)

このセクションで使っている R packages

library("tidyverse")
library("ggrepel")
library("DT")
library("stargazer")

グラフの設定 (Macユーザのみ)

・ggplot を使ったグラフの中に日本語を表記させるためのコマンド ・グラフの背景を白に指定したい場合

theme_set(theme_classic(base_size = 10,
                        base_family = "HiraginoSans-W3"))

・グラフの背景をグレーに指定したい場合

theme_set(theme_gray(base_size = 10,
                     base_family = "HiraginoSans-W3")) 

注:このページでは ggplot を使ったグラフの背景は白に指定している。

1. データの準備

・データを R に読み込む
・Rを使ってデータ分析する上で重要なのは working directory を確かめること
・次のコマンドで確かめることができる

getwd()
[1] "/Users/asano/Dropbox/statistics/class_materials/R"

・working directory にはデータ分析に必要なデータや script を保存するので、常に確認しておくことが大切
・working directory を別の場所(例えば R というフォルダー)に変更したいときには setwd の後に指定したいパスを入力

setwd("/Users/asanomasahiko/Dropbox/R")

・RStudio を使う場合には分析テーマごとに新たなプロジェクトを作成すると working directry をチェックしなくても簡単にデータを読み込むことができるので大変便利
File から New Project を選び、指示に従って作成すると、RProject は project folder を自動的に working directory だと認識する
・RStudio 右画面下部画面にある File をクリックすると、作成した RProject フォルダー内にあるファイルが表示される

income.csv をダウンロードし、RProjctフォルダーに保存
* RProject フォルダー内に income.csvファイルがあることを確認してから、次のコマンドを入力し、csv ファイルを読み込むために必要な tidyverse package をインストールし、読み込んだ income.csv に income というデータフレーム名を付ける

income <- read_csv("income.csv")  # 読み込んだデータセットに income と名前をつける

・データフレーム income の最初 (head) の 6 行を表示する

head(income)
# A tibble: 6 x 7
  id    sex      age height weight income generation
  <chr> <chr>  <dbl>  <dbl>  <dbl>  <dbl> <chr>     
1 AU    male      70   160.   58.3    201 elder     
2 AY    female    70   156.   44      487 elder     
3 AB    male      69   173.   75.7    424 elder     
4 AM    male      67   166.   69.3   1735 elder     
5 M     male      66   171.   76.5    929 elder     
6 CM    female    66   164.   67.3    397 elder     

・次にデータフレーム income に含まれる変数名を全て表示させる

names(income)
[1] "id"         "sex"        "age"        "height"     "weight"    
[6] "income"     "generation"

・観測数と変数の数を表示させる

dim(income)
[1] 100   7

・観測数は 100 で、変数が 7 つあることがわかる
・RStudio の右上にある environment タブをクリックしてもこれらの情報は確認できる
・このデータの構造は data.frame であり、7つの変数それぞれが整数 (integer) なのかファクター (factor) なのか、数字 (numeric) なのかがわかる
・このデータの統計量のサマリーを表示させる

summary(income)
      id                sex                 age            height     
 Length:100         Length:100         Min.   :20.00   Min.   :148.0  
 Class :character   Class :character   1st Qu.:36.00   1st Qu.:158.1  
 Mode  :character   Mode  :character   Median :45.00   Median :162.9  
                                       Mean   :45.96   Mean   :163.7  
                                       3rd Qu.:57.25   3rd Qu.:170.2  
                                       Max.   :70.00   Max.   :180.5  
     weight          income        generation       
 Min.   :28.30   Min.   :  24.0   Length:100        
 1st Qu.:48.95   1st Qu.: 134.8   Class :character  
 Median :59.95   Median : 298.5   Mode  :character  
 Mean   :59.18   Mean   : 434.4                     
 3rd Qu.:67.33   3rd Qu.: 607.2                     
 Max.   :85.60   Max.   :2351.0                     

・ここでは変数ごとに次の情報が表示されている

  • Min : Minmun value
  • 1st Qu. : 1st Quantile (25%)
  • Median : 中央値 (50%)
  • Mean : 平均値
  • 3rd Qu. : 3rd Quantile (75%)
  • Max : Maximum value

2. 棒グラフ

・Bar Chart とも呼ばれる
・factor (or factorial variable) を図示するときに使う

・世代ごとの観測数を棒グラフで表示する(縦棒)

ggplot(income, aes(generation)) + 
  geom_bar() +
  xlab("世代") +
  ylab("Count") +
  ggtitle("世代ごとにおける観測数の分布")