前回も書いたように、実際にデータ分析するためには、データを読み込み、読み込んだデータの前処理をして、そして分析に使えるように加工してそれを書き出してファイル化して初めて準備ができたことになる。
前回の記事で紹介した参考文献は、RStudioの利用を前提として「Rを用いて一連のデータ分析ワークフローを遂行するためのガイドブック」であり、想定読者は、「Rでデータ分析をする、あるいはしたいと思っているすべての方」と位置付けられていた。扱う対象はあくまでも分析ワークフローであって、分析そのものではない。今回、紹介する参考文献も、書名に「分析入門」とあるが、普通、イメージする分析の解説にはなっておらず、前記事で紹介したのと同じ内容、副題にあるように「効率的なデータ加工のための基礎知識」を提供するものだ。
内容としては同じような書籍の紹介となるが、前著*1と今回の書籍はどこが違うのかというと、前著がRやRStudioを使うユーザ全般を対象としているのに対し、今回の書籍は、Excelユーザを中心に据え、ビジネスでのデータ分析をより意識した構成になっている(RStudioの利用は前提となっている)。官庁や業界などで公開されているデータは、ExcelやcsvファイルになっているのでExcelデータの取り扱いが分かるのは、日頃、Excelデータと格闘しているビジネス系の初心者にとって学びやすい。
前著と同様、扱っているのは、①データのインポート、②データのクリーニング(前処理:分析のできるデータへの加工)、そして③共有に関する手法だ。(統計)分析については扱っていない。さらに本書は、前著では扱っているスクレイピングや可視化についても扱っていない。つまり、本書は前著に比べて内容を絞って学ぶようになっており、初心者がRやRStudioを学びやすくなっていると言えるであろう。
目次は以下の通り。
- はじめに
- 第1章 RとRStudioの基礎
- 第2章 Rの機能
- 第3章 Excelファイルのインポート
- 第4章 データ加工に適したTidyデータ
- 第5章 データ加工に必要なパッケージ群「Tidyverse」
- 第6章 列の加工
- 第7章 行の加工
- 第8章 文字を自由に操る正規表現
- 第9章 カテゴリかるデータのための因子型
- 第10章 条件別による列の加工
- 第11章 特殊な加工に必要なtidyrパッケージ
- 第12章 煩雑なデータをTidyに〜縦データと横データの変換〜
- 第13章 マスタデータと戦おう
- 第14章 単純な集計
- 第15章 集団の集計
- 第16章 日付・時刻データ
- 第17章 Tidyデータの作成
- 第18章 データの保存
- 第19章 レポートの出力
- おわりに
目次を見れば明らかなように、統計分析をいろいろ学ぶのは他の書籍に譲って、ここでは、「統計分析できる形にデータを加工することを学ぶ」ことを主眼としている。これは、Excelでもできるが、あえてRを使うのは、Rが「作業手順をすべて記録できる」という特徴を持っているからである。これを利用して再現可能なレポートを作成できるようになることを目指しているのが本書である。
独学を前提としているので記述の仕方も工夫されている。青を基調としたハッチングで表現にメリハリをつけ、読みやすくしている。内容自体も素人でも読めるように優しく書いてある。ページ数は300ページを超えるが、全19章で、学ぶ際には1章ずつ区切って学んでいけば、章自体はそれほど長くないので負担も少なく、学んでいけると思う。そして1冊読み終わった時には、RやRStudioを使って再現可能なレポートを作成できるようになっていることになる。
初心者がRやRStudioを使ってデータ加工をマスターするのであれば、こちらの書籍でじっくり取り組みたい*2。