日本橋濱町Weblog（日々酔亭）

Quality Economic Analyses Produces Winning Markets

2023-12-02 2023-12-03

Rと統計学を学ぶ（4）・・・多変量データの記述（相関係数いろいろ）

実証研究入門（統計学、R/RStudio、Python）本日の仕事

※本ブログおよび掲載記事は、Google、Amazon、楽天市場のアフィリエイト広告を利用しています。

宣言をしてみる
RおよびRStudio
Rで統計学
おわりに

宣言をしてみる

継続は力なり、1冊を読破せよということで、毎日の進捗をここにメモることにした。今回で4回目。

Cultivation of basic intellect secretly advanced in a secret base — 秘密基地で密かに進められる基礎知力の強化

前回まで。

mnoguti.hatenablog.com

本日というか最近の進捗は以下の通り（前回から約1週間経過しているが、実際、あまり進めていない）。

RおよびRStudio

現在の進捗は以下の通り。

第8章突入：正規表現を使って文字列の加工をする

Key words:正規表現、stringrライブラリ、remove、detect、extract、replace、メタ文字5種類

第8章は「文字を自由に操る正規表現」。データ分析する際、いろいろなところからデータを集めてくると文字列の並びが統一されていないということがザラにある。そういう時に正規表現を使って、文字列を整理して、分析に使えるようにする。

・・・ということでこの章は、データの前処理として非常に大切な章。だけど、覚えようとすると前に進まなくなるので、じっくり読んでプログラム例を動かしたら前に進む。

特に繰り返しのある正規表現（+、{m,n}）はプログラムを理解するのに時間がかかる。これはひたすら面倒がらずに慣れるしかない。簡単なものを繰り返し使って徐々に組み合わせていく感じか。

Rでらくらくデータ分析入門 ~効率的なデータ加工のための基礎知識

Rでらくらくデータ分析入門 ~効率的なデータ加工のための基礎知識

作者:西田典充
技術評論社

Rでらくらくデータ分析入門～効率的なデータ加工のための基礎知識～ [ 西田典充 ]

Rでらくらくデータ分析入門～効率的なデータ加工のための基礎知識～ [ 西田典充 ]

価格: 3278 円
楽天で詳細を見る

Rで統計学

現在の進捗は以下の通り。

第2章本文：1変量データから多変量データへ。相関係数についていろいろ理解する

Key words:相関係数、積率、ピアソン、順位、スピアマン、ケンドール、欠損値、相関と因果、切断効果、外れ値、等

変数間の関係を定量的に捉える指標の理解。積率と順位をまずは抑える。経済分析では積率がほとんどだろうが、アンケート調査では順位相関係数の使用頻度も多くなる。自分としては、順位相関係数はほとんど使ったことはない。欠損値は、分析する際には標本ごと除去しておきたい。

相関と因果の区別は難しい。人間の行動は、集団等環境の中で色々な影響を受けているので純粋な因果関係を抽出するのは難しい。統計的因果推論の一手法としてRCT（Randomized Controlled Trial、ランダム化比較実験）がある。3変数以上のデータの可視化は実演しよう。

Rで学ぶ確率統計学実データ分析編

Rで学ぶ確率統計学実データ分析編

作者:神永正博,木下勉
内田老鶴圃

Rで学ぶ確率統計学　実データ分析編 [ 神永正博 ]

Rで学ぶ確率統計学　実データ分析編 [ 神永正博 ]

価格: 4180 円
楽天で詳細を見る

おわりに

時間に追われているわけではないが、毎日継続することが大切。途切れないように続ける。

ではまた次回。

ランキング参加中

Think<書くことは考えること>

ランキング参加中

好きなことで仕事にしていきたい人もブログ集まれ

ランキング参加中

テクノロジー