データ*1で世の中の構造や動きを明らかにしたい。2010年代初頭、IoTの進展に伴うデジタルデータの利用可能性の高まりによる民間企業の取り組み、その後のデジタルトランスフォーメーション(DX)を推進する官公庁の取り組み、またEBPM(証拠に基づく政策立案)の推進や公教育における情報教育の充実によりデータの利用が大きく増えることが予想される。一方、PCの高性能化やエクセルやR言語等のデータ分析用ソフトの普及、、Python等によるAI・機械学習の応用、ITパスポート等の各種資格の充実で我々がデータ分析で何かをやろうと考える環境も整えられた。
こうやって環境が整ってくると、社会科学を専攻する人間は、個人の選択行動や集団としての社会行動あるいは制度変更の影響を分析したくなるだろう。自分もそんな中で何かしたいと思っていたのだった。
そこで当時やってみたのは、R言語を使っての高速道路の料金変更の分析だった。2011年にはRStudioはリリースされていたらしいがその存在を知らなかったのでR言語上でコマンドを入力しての分析だった。
データの入手は、その分野の統計データとして何が使えるかの知識が必要だ。この時は大したデータ加工(前処理)をしなかったのだが、多くの場合、自分の分析ができるようにデータを加工する必要があり、これが結構手間がかかる。結局、集めたデータを使うのを諦めるなんてこともままあった。データの加工には手間がかかるし、ここを適当にやると後で間違ったデータで分析したなんて事にもなりかねず、大切な手続きになる。
高速道路分析の時は、複雑なデータ加工の必要がなかったし、エクセル上で前処理を済ませたのだった。しかし、より大きなデータや複雑なデータ処理を必要とする場合、エクセルからSTATA(この時はR言語は使っていない)というような人の手を介する複数のソフトウエアで処理するのではなく、一つのソフトで完結したい。それがミスの予防になる。
今回、使うR言語はRStudioの統合開発環境(IDE)が提供されている(他にもいくつかある)。これにより使いやすさが格段に高まったが、データの収集や加工にはそれなりのプログラミングの知識が必要とされる。その点を考え、データの収集や加工を重点的に解説したのが、下記のRユーザのためのRStudio[実践]入門だ。
目次は以下の通り。
- はじめに
- tidyverseとは
- 第1章 RStudioの基礎
- 1-1 RStudioのダウンロードとインストール
- 1-2 RStudioの基本操作
- 1-3 RStudioを自分好みにカスタマイズ
- 1-4 ファイルの読み込み
- 1-5 RやRStudioで困ったときは
- 1-6 まとめ
- 第2章 スクレイピングによるデータ収集
- 2-1 なぜスクレイピングが必要か
- 2-2 スクレイピングに必要なWeb知識
- 2-3 Rによるスクレイピング入門
- 2-4 API
- 2-5 まとめ
- 第3章 dplyr/tidyrによるデータ前処理
- 3-1 tidy dataとは
- 3-2 tidyrによるtidy dataへの変形
- 3-3 dplyrによる基本的なデータ操作
- 3-4 dplyrによる応用的なデータ操作
- 3-5 dplyrによる2つのデータセットの結合と絞り込み
- 3-6 tidyrのその他の関数
- 3-7 まとめ
- 第4章 gglot2によるデータ可視化
- 4-1 可視化の重要性
- 4-2 ggplot2パッケージを用いた可視化
- 4-3 他者と共有可能な状態に仕上げる
- 4-4 便利なパッケージ
- 4-5 まとめ
- 第5章 R Markdownによるレポート作成
- 5-1 分析結果のレポーティング
- 5-2 R Markdown入門
- 5-3 出力形式
- 5-4 まとめ
- 付録A stringrによる文字列データの処理
- 付録B lubridateによる日付・時刻データの処理
目次を見れば明らかなように、統計分析を解説した章はない
*2。分析の前段階のデータの収集・読み込み(第1章、第2章)からデータの加工(第3章)について詳しく解説し、さらにデータの視覚化(第4章)に触れている。これらは、詳しく理解することにより、データの取り扱いが的確になり、分析に取り掛かりやすくなる。分析に入る前にデータの前処理の段階で諦めてしまうことが少なくなる。
分析のステージは何らかの結果が出てくるので、いろいろ試行錯誤をすることで積極的にチャレンジするが、その前のデータの前処理の段階を分析を視野に入れながら対応できれば、結果的に分析の幅の幅も広がるだろう。このデータの入手から前処理と視覚化の段階をしっかりマスターすることは分析を充実させるためにも大切なのだ。