端緒
機械学習とはどういうものかを端的に理解する必要があり、手に取った1冊。確かに書名の通り、「しくみと技術がこれ1冊でわかる」ある程度分かる内容だと思う。「しっかり」という点については、何に力点を置くかで変わってくるが、入門者が機械学習ってこういうものかという理解を得られるということであれば確かにそうだ。
本書は、全部で8章立てになっていて、AIの心臓部である理論体系の機械学習とディープラーニングについて以下の通り解説している。
- 1章:人工知能の基礎知識
- 2章:機械学習の基礎知識
- 3章:機械学習のプロセスとコア技術
- 4章:機械学習のアルゴリズム
- 5章:ディープラーニングの基礎知識
- 6章:ディープラーニングのプロセスとコア技術
- 7章:ディープラーニングのアルゴリズム
- 8章:システム開発と開発環境
- おわりに
- 参考文献
以上の構成で、機械学習とディープラーニングとは何ぞやというところが理解できるようになっている。
AI(Artificial Intelligence:人工知能)と機械学習、ディープラーニングの関係はというと、AIを開発する上での技術が機械学習であり、ディープラーニングはその中の一手法とでも位置付けられようか。
AI、その中の一技術である機械学習が注目、あるいは必要とされた背景には、いろいろなデータが大量に使えるようになった点が大きい。表計算ソフトでデータを手入力していた時代とは比べ物にならないほど大量のデータが、自社データならほぼ無償で、外部データでもものによっては比較的低コストで入手可能になったためだ。そうなるとそのデータを使って分析したくなるが、それを手入力するわけにはいかない。さらにデータ量が桁違いなので表計算ソフトで処理するのは不可能という状況が機械学習を呼び寄せたとでも言おうか。
当然、人工知能の開発でも新たな展開が始まっていたということもあろう。それが機械学習となり、今、我々さえも使える技術として出回っている。さて、表計算ソフトでデータ分析をしていた頃は、簡単な集計や統計計算などしていて何をしているのか分かっていたが、機械学習となると何をしているのかさっぱり分からないというところではないだろうか。そんな時、本書は、我々に機械学習やディープラーニングが何をしているかを教えてくれる。
第1章、第2章
目次で明らかなように、最初で人工知能、機械学習の概要を説明し、おおよそのところを教えてくれる。人工知能には、強い人工知能と弱い人工知能がある、その人工知能発展の鍵を握るのは機械学習という。機械学習には学習モデルがあり、これが入力データ(ビッグデータはここで使われる)から結果を予測するのに鍵を握る。
その学習モデル(アルゴリズム、理論と言い換えてもいいかもしれない)は、大きく2つのことを行う。分類と回帰だ。分類はグルーピングすることであり、回帰はそのグループの一つに注目し、傾向を見るときに使う。ここまで読むと今回、自分が必要なのは回帰に関する学習モデルだということになるが、世の中そんな単純ではない。分類に使う学習モデルも回帰に応用可能ということで結局両方調べる必要があることになる。
中盤は、機械学習について具体的な解説となる。機械学習には教師あり学習と教師なし学習があり、教師あり学習は、教師の役割を果たす学習データが必要であり、教師なし学習はアルゴリズムが学習データなしに構造や法則を自動的に抽出する。
また分類と傾向を見るという点についてより具体的に解説が加えられ、分類は、離散値であり、順番に意味がないという条件を満たすことが特徴と説明され、回帰は、連続値になると説明される。
機械学習は、テストデータで正解を出せるように誤差を最小にすることを目標とし、出力で評価される。この部分は計量経済学での推定作業とは異なる。計量経済学では、経済理論に基づいたモデルがあり、それにデータをあてはめ、モデルのパラメータを推定し、統計量が仮説を支持するか(変数間の関係が支持されるか)がまず評価される。評価されたモデルのを使って予測作業に移ることになる。よって、機械学習では予測値の誤差が問題になり、その最小化が重視されるが、計量経済モデルは、パラメータの符号条件や統計量、あるいは推定値(理論値)と実績値の誤差に注目し、予測値を評価することはあまりない。
本書でもこの点は、計量経済学と統計学の違いはあるが、「統計と機械学習の違い」として記載されており、引用すれば、「統計は『なぜこのようなデータが出るのか』を教え」るとし、「機械学習は『これからデータがどう変わっていくのか』を教え」てくれるとある。最近の文献をネットで検索してみると、計量経済学の分野で機械学習の応用が進んでおり、機械学習と計量経済学は急速に接近しているようだ。
その他、機械学習では、予測値の精度(テストデータと予測値の誤差の最小化)が重視されるが、その誤差を左右するデータとしてに特徴量について説明や、機械学習の得意分野、活用事例などが解説されている。
第3章、第4章
機械学習についてその計算方法の実際が説明されており、データのコーディング、モデルの作成、評価基準、モデルのチューニング等々が3章で説明され、4章では、心臓部とも言える、各種アルゴリズムの説明がある。ここで取り上げられているアルゴリズムは以下の通り。
- 回帰分析(重回帰分析、リッジ回帰など多数あり)
- サポートベクターマシン
- 決定木(ランダムフォレストなど多数あり)
- アンサンブル学習とその応用
- ロジスティック回帰
- ベイジアンモデル
- 時系列分析と状態空間モデル(AR、MR、ARMR、ARIMR、SARIMRなど)
- k-近傍(k-NN)法とk平均(k-means)法
- 次元削減と主成分分析
- 最適化アルゴリズムと遺伝的アルゴリズム
などが挙げられている。
第5章、第6章、第7章
後半では、ディープラーニングについて解説されている。ディープラーニングは機械学習の一つだが、現在、最も注目されている技術として注目されている。後半の3章を使いディープラーニングについて、機会学習と同じ章構成で説明しており、両者を比較しながら読み進めると理解が進むのではないかと思う。
おわりに
第8章は、「システム開発と開発環境」ということで割愛。自分の興味のあるところを中心に書いたので内容はアンバランスだが、その点についてはご容赦を。少しでも興味を持った方は、入門書として、機械学習が何かを知るにはいいと思うので、購入してご一読いただければと思う。