日本橋濱町Weblog(日々酔亭)

Quality Economic Analyses Produces Winning Markets

Rと統計学を学ぶ(4)・・・多変量データの記述(相関係数いろいろ)

※本ブログおよび掲載記事は、GoogleAmazon楽天市場アフィリエイト広告を利用しています。

宣言をしてみる

継続は力なり、1冊を読破せよということで、毎日の進捗をここにメモることにした。今回で4回目。

Cultivation of basic intellect secretly advanced in a secret base

秘密基地で密かに進められる基礎知力の強化

前回まで。

mnoguti.hatenablog.com

本日というか最近の進捗は以下の通り(前回から約1週間経過しているが、実際、あまり進めていない)。

RおよびRStudio

現在の進捗は以下の通り。

  • 第8章突入:正規表現を使って文字列の加工をする

Key words:正規表現、stringrライブラリ、remove、detect、extract、replace、メタ文字5種類

第8章は「文字を自由に操る正規表現」。データ分析する際、いろいろなところからデータを集めてくると文字列の並びが統一されていないということがザラにある。そういう時に正規表現を使って、文字列を整理して、分析に使えるようにする。

・・・ということでこの章は、データの前処理として非常に大切な章。だけど、覚えようとすると前に進まなくなるので、じっくり読んでプログラム例を動かしたら前に進む。

特に繰り返しのある正規表現(+、{m,n})はプログラムを理解するのに時間がかかる。これはひたすら面倒がらずに慣れるしかない。簡単なものを繰り返し使って徐々に組み合わせていく感じか。

Rで統計学

現在の進捗は以下の通り。

  • 第2章本文:1変量データから多変量データへ。相関係数についていろいろ理解する

Key words:相関係数、積率、ピアソン、順位、スピアマン、ケンドール、欠損値、相関と因果、切断効果、外れ値、等

変数間の関係を定量的に捉える指標の理解。積率と順位をまずは抑える。経済分析では積率がほとんどだろうが、アンケート調査では順位相関係数の使用頻度も多くなる。自分としては、順位相関係数はほとんど使ったことはない。欠損値は、分析する際には標本ごと除去しておきたい。

相関と因果の区別は難しい。人間の行動は、集団等環境の中で色々な影響を受けているので純粋な因果関係を抽出するのは難しい。統計的因果推論の一手法としてRCT(Randomized Controlled Trial、ランダム化比較実験)がある。3変数以上のデータの可視化は実演しよう。

おわりに

時間に追われているわけではないが、毎日継続することが大切。途切れないように続ける。

ではまた次回。

ブログランキング・にほんブログ村へ

PVアクセスランキング にほんブログ村