未分類

統計解析ツールR完全ガイド:ゼロから始める手順書

統計的に数字から思考ことが求められる時代に突入しました。

マーケティングやコンサルティング、企業の企画立案、独立して会社を立ち上げる際にも、統計的に数字を見て判断することが求められています。

実は、海外のコンサルティングではこうした実社会での数字を用いた本格的なコンサルティングが一般的です。

ここには高度な数学やツールを用いいて「なんとなくAパターンの方が結果がいい」というような曖昧な回答は存在しません。

数値の結果から方針を決定します。

日本のビジネス社会にも数字から具体的な価値利益を測り効率的な運用をするため、マーケティングや経営に必要な分析の口座を運営しています。

ぜひ、マーケティング、経営に必要な数字の知識を学びたい方は公式LINE登録をして、次回からの投稿をお待ちください。

このガイドでは、統計解析に有効なツールであるRの導入から基本的な分析まで、手順を追って実践形式で紹介します。

前提条件

本ガイドでは、以下の知識を前提としています:

  • プログラミングの基本概念(変数、関数、データ型など)
  • ターミナル(コマンドライン)の基本操作

プログラミングの基礎を学びたい方は、こちらも一緒に学んでみてください。

難しいことはなく、論理的思考力のレベルアップにも役立ちます。


ステップ1:Rのインストール

1-1. macOSへのインストール

ターミナルを開き、以下のコマンドを実行します:

brew install r

補足: Homebrewがインストールされていない場合は、事前にインストールしてください。

インストール方法、PCのセットアップについてはこちらを参照してください。


ステップ2:Rの起動と開発環境の選択

2-1. ターミナルからの起動

ターミナルで以下のコマンドを入力:

R

2-2. RStudioの利用(推奨)

より使いやすい統合開発環境(IDE)として、RStudioの利用を推奨します。

  1. RStudioのダウンロードページにアクセス
  2. macOS版をダウンロードしてインストール
  3. RStudioを起動

こちらに関しては こちらを 参照してください。


ステップ3:Rの基本操作を習得する

3-1. 簡単な計算を試す

これらは基本的にはどのプログラミング言語でも同じです。

色々計算して試してみてください。

変数等の分からない単語が出てきた場合は こちらを参照してプログラミングの基礎をなんとなく理解しておくと、今後のものの考え方もスッキリするかもしれません。

# 足し算
2 + 3

# 変数への代入
x <- 10
y <- 5
x + y

# ベクトルの作成
numbers <- c(1, 2, 3, 4, 5)
mean(numbers)  # 平均値を計算

3-2. データの読み込み

# CSVファイルを読み込む
data <- read.csv("ファイル名.csv")

# データの確認
head(data)      # 最初の6行を表示
summary(data)   # 要約統計量を表示

上手くcsvが読み込めない場合はRを起動する際にcsvファイルがある階層で行ってみてください。

起動する場所の変更方法は ターミナル を参照ください。

ここからは少し実践的で面白いセクションになります。

実際にデータを可視化して様々な角度からデータを眺めてみると新しい視点を得られるかもしれません。

3-3. グラフの作成

# 散布図
plot(x, y)

# ヒストグラム
hist(numbers)

ステップ4:パッケージのインストールと設定

4-1. TSSSパッケージのインストール

時系列解析に使用するTSSSパッケージをインストールします。

# パッケージのインストール
install.packages("TSSS")

4-2. ミラーサイトの選択

インストール時にミラーサイトの選択を求められます。以下のように「48: Japan (Yonezawa)」を選択してください:

Selection: 48

4-3. パッケージの読み込みと確認

Rではパッケージをインストールした後にライブラリを読み込む必要があります。

自分も何回もここを忘れて時間を浪費することがあるので注意してください。

# パッケージの読み込み
library(TSSS)

# バージョン確認
packageVersion("TSSS")

# ヘルプを表示
?TSSS

ステップ5:作業ディレクトリの設定

5-1. 現在の作業ディレクトリを確認

getwd()

5-2. CSVファイルの存在確認

ここでRを開いている階層にcsvファイルがあることを確かめます。

csvファイルがない場合は、先程のターミナルから、起動する場所を変更してみてください。

list.files(pattern = "\\\\.csv$")

5-3. ディレクトリの変更(必要に応じて)

setwd("~/Mywork/統計")  # パスは適宜変更

Tips: ターミナルで cd コマンドを使ってデータファイルのあるディレクトリに移動してからRを起動すると便利です。


ステップ6:サンプルデータのインポート

6-1. 単一データのインポート

data(HAKUSAN)
head(HAKUSAN)  # 最初の6行を確認
データがしっかりあるか、どういう構造化を把握できます。

6-2. 複数データの一括インポート

data(HAKUSAN)      # 船舶の航行中の多変量データ
data(Sunspot)      # 太陽黒点数データ
data(Temperature)  # 東京の日最高気温データ
data(BLSALLFOOD)   # アメリカの食品産業の従事者数
data(WHARD)        # あるハードウェアの卸売高データ
data(MYE1F)        # 地震波データ
data(Nikkei225)    # 日経225平均株価データ
data(Rainfall)     # 各月日について東京で2年間に雨が降った回数
data(Haibara)      # 地下水位データ

6-3. 独自データ(CSV)のインポート

手元にあるCSVファイルを使用する場合:

先程説明した方法でもインポート可能です。

# 基本的なインポート
sunspot <- as.ts(read.csv("sunspot.csv"))

# 時系列データとして指定
blsfood <- as.ts(read.csv("blsfood_new.csv"), 
                 start = c(1967, 1), 
                 frequency = 12)

ステップ7:データの可視化

7-1. 基本的なプロット

par(mar = c(2, 2, 3, 1) + 0.1)
表示するウィンドウのレイアウトをしているだけです。
plot(HAKUSAN[,1], main = "(a) 船舶の方向角速度")

7-2. 複数データのプロット

par(mar = c(2, 2, 3, 1) + 0.1)

plot(HAKUSAN[,1], main = "(a) 船舶の方向角速度")
plot(Sunspot, main = "(b) 太陽黒点数")
plot(Temperature, main = "(c) 東京の日最高気温")
plot(BLSALLFOOD, main = "(d) 食品産業従事者数")
plot(WHARD, main = "(e) 卸売高")
plot(MYE1F, main = "(f) 地震波(東西方向)")
plot(Nikkei225, main = "(g) 日経225平均株価")
plot(Haibara, main = "(h) 地下水位(上段)と気圧(下段)")

7-3. グラフタイプの指定

plotのtypeオプションで、さまざまなグラフ形式を選択できます:

  • type = "l": 線グラフ(line)
  • type = "p": 点グラフ(points)
  • type = "b": 点と線の両方(both)
  • type = "o": 重ね描き(overplotted)
  • type = "h": ヒストグラム風(histogram-like)
  • type = "s": 階段状(steps)
  • type = "n": 何も描かない(no plotting)

7-4. 対数変換とグラフの比較

data(WHARD)
log_WHARD <- log10(WHARD)

par(mfrow = c(2, 1), mar = c(2, 4, 1, 1) + 0.1)
plot(WHARD, type = "l", main = "元データ")
plot(log_WHARD, type = "l", main = "対数変換後")

よく使う関数リファレンス

ここら辺はまた詳しく解説するので今は「ふーん」と思っていてください。

データ操作

  • diff(): 差分を計算
  • mean(): 平均値
  • summary(): 要約統計量
  • head(): データの先頭部分を表示

パッケージ管理

  • install.packages(): パッケージのインストール
  • library(): パッケージの読み込み
  • packageVersion(): バージョン確認

グラフ描画

  • plot(): 基本的なプロット
  • hist(): ヒストグラム
  • par(): グラフィックパラメータの設定

まとめ

このガイドでは、Rの導入から基本的なデータ分析・可視化までの手順を解説しました。

習得した内容:

  1. Rのインストールと起動方法
  2. 基本的なR言語の操作
  3. パッケージのインストールと管理
  4. データのインポート方法
  5. データの可視化技術

統計解析は実践を重ねることで上達します。まずは本ガイドの手順に従って操作に慣れ、徐々に自分のデータで分析を行ってみてください。

より詳しい内容については、専門書籍やオンラインリソースを参照してください。