今、個人的には、Rのプログラミングスキルと統計学のレベルアップをしている。
12月になってから進んでいないが、Rのデータ加工のスキルと統計学を基礎から叩き直しているところだ。
そういう自分にとってRや統計学の刺激を受けるまたとない機会に巡りあった。それがR研究集会だ。下記のページから見ると、2021年が第1回で今年が3回目になる。毎年この時期に開催されている。
2021年はオンライン開催のみ、2022年と今回は対面とオンラインと両方での開催となった。
今回は、現地で対面での参加予定としていた人が19名、オンラインが141名事前に登録されていた。実際どうだったかは、自分はオンライン参加だったので正確なところは分からないが、オンラインについては70名前後だったのではないかと思う。対面参加はオンラインでは確認できなかったが、終わった後の賑やかさを聞いていると予定の方はほとんど参加であったような感じであった。
自分も久しぶりの研究会ということで、オンラインだったが刺激を受けたことは確かだった。しかし知らない専門用語の嵐で理解の程度はたかが知れている。発表は、11テーマあった。財務データ、空間統計、航空データ、新型コロナ関連データ、バイオデータなど多様なデータを取り上げ、それを分析する統計手法も自分にとっては初めて聞くものがほとんどであった。Rについても統計学についてもまだまだということに気付かされた*1。
発表者も大学の先生が主であったが、企業や研究所、学部生の発表があり多様であった。特に学部生の報告は、航空機のフライトデータを使った分析であったが興味深かった(授業でRを教えているので尚更だ)。
各々の発表*2を聞いていて、自分自身のデータ分析に対する考えについても考えさせられた。今まではデータの限界、制約がある場合(大概は少ないデータ数で分析を行わなければならない時)は分析対象の外部環境の情報を参考に結果を解釈するようにしていた。今回の発表を聞いていて、データの収集時点の観察から分析までの手続きを丁寧にやる必要があるのではないかと考えさせられた。
今までの自分の経験を振り返った時、使い慣れたデータを使っていたこともあり、収集したデータの情報を十分活用していたのかというとどうだろうと考えてしまう。また分析を進める際にもデータの限界を前提とした推定方法を十分検討したのかという点も改善の余地があると思った。
これらを改善するためには、利用するデータが発生するプロセスや癖を知る必要があるだろうし、統計学も、例えば回帰分析についてより深く理解する必要があるだろう。そのあたりはまだまだだなと改めて考えさせられた。この課題を乗り越えていくためには、理論は教科書で勉強し、データを知るという点では多様なデータで前処理を経験し、分析してみる必要がある。今後の課題だ。要するに自分の能力はまだまだだなということを思い知った研究会であった。
発表者の1人であった神戸大の中澤先生のホームページを見ていて「データ視覚化の人類史」という本の存在を知った。「グラフの発明から」とあり、今まで散々仕事などでグラフを扱ってきたが、その最初を考えたことがなかったので、内容に俄然行味が湧いた。いつか読んでみたいと思う。
来年開催されるのであれば、対面で参加してみたいと思うのであった。
やることは多く、先は長い・・・。
Rに興味があるそこの君、君にはこの本を参考にRでデータ分析してみるとRの良さが分かると思う。