ビッグデータが注目されるようになってから、にわかにデータ分析、実証研究の世界が賑やかになってきた。
シグナル&ノイズにもある通り、社会科学の究極の目的の一つは将来を予測することだろう。そういう点でビッグデータを使えるようになったことはその目的達成の可能性を高める。
一方、社会の隠れた動きを知るにもビッグデータの分析が必須だ。それはビッグデータのヘッドの部分ではなく、テールの部分に隠れている。ロングテールと言われる異様に長い尻尾の部分にごくわずかにその動きが隠れている。それを掘り当てるためにはビッグデータと言われるほどのデータを処理しないと見つからないということだ。
現状で社会の隠れた動きを抽出し、分析するような研究がどこまで進んでいるのかは分からない。おそらくそれはビッグデータと言われるデータを使って分析している研究者のごく一部でしかないのではないか。そのようなあるかないか分からないデータの動きを抽出してもすぐに銭にはならないからそもそも世の中にニーズがない。
今のデータ分析の世界は、扱うデータ量が飛躍的に大きくなったという意味でのビッグデータに興味があるのであって、それは今までもアンケート調査データなどでみようと思えば見られたものである可能性が高い。ただそのためには調査データの他にも、その周辺のことをよく観察する必要があり、結構手間がかかるからだ。
データ分析が注目されているからか、そのためのツールも日々進歩している。ニーズがあるというのは素晴らしいと単純に喜んでもいられない。その進歩についていけないからだ。
さて、本題。今回は、自分の実証研究での新たなツールの獲得をどうにかしたいというところで、そのツールとは具体的には、Rとその分析ツールのRStudioいうオープンソースのアプリケーションについてだ。
ひと昔前は、Stateを使って、分析していた。このブログにも下記のような記事を書いたことがある。
Stateをそのまま使い続けてもいいのだが、最近はRを使っている人がだいぶ増えてきたし、自分もそれをなんとかマスターしようとちょこちょこ触っている。例えば、しばらく前はこんな記事を書いて、ベイズ統計をマスターすることとRをマスターすること一石二鳥を狙うみたいなことを書いている。結局、どちらも進んでいない。
そうしたら下のような時系列分析をRで行うための解説本まで出てきた。経済統計は時系列が主で時系列分析は景気分析をする上でぜひともマスターしたいところということでこちらも勉強しなければということになっている。
基礎からわかる時系列分析 ―Rで実践するカルマンフィルタ・MCMC・粒子フィルター (Data Science Library)
- 作者: 萩原淳一郎,瓜生真也,牧山幸史,石田基広
- 出版社/メーカー: 技術評論社
- 発売日: 2018/03/23
- メディア: 大型本
- この商品を含むブログ (1件) を見る
そうしたらRを使った分析環境を提供するツールRStudioなるアプリも登場してきて、さらにその解説本も出たということでこれを使ってベイズにしろ、時系列にしろ、ちょっと頑張ってみようと思ったわけ。
RユーザのためのRStudio[実践]入門−tidyverseによるモダンな分析フローの世界−
- 作者: 松村優哉,湯谷啓明,紀ノ定保礼,前田和寛
- 出版社/メーカー: 技術評論社
- 発売日: 2018/06/29
- メディア: 大型本
- この商品を含むブログ (1件) を見る
このRStudioの解説本は、RStudioの利用に限って解説していて、徹底的にRStudioを使いこなしましょうという本みたいだ。
まずはRStudioに慣れることと、それの練習台として時系列分析をやってみるということにしようと思う。
相変わらずの有言不実行になるのか、今回は少しはマスターするのか、どちらになるでしょうか。
前処理大全[データ分析のためのSQL/R/Python実践テクニック]
- 作者: 本橋智光
- 出版社/メーカー: 技術評論社
- 発売日: 2018/04/13
- メディア: 大型本
- この商品を含むブログ (1件) を見る