第6週は実際に機械学習を活用するに当たっての注意点や効率化の方法などについての話でした。とにかくやり方を間違えると半年や1年はすぐに経ってしまう、データの数量を集めることに時間を浪費しないように、ということが強調されていました。

・Train/Validation/Test sets 学習/検証/テストのサンプルデータ
全体のデータセットを60:20:20の比で分けて、それぞれを学習用、検証用、評価用のデータとする。
検証用のデータは、正規化の度合い(λ)を決定するのに用いる。

・Bias vs Variance バイアスと分散
バイアスと分散といっても何のことかわからないが、データにあてはめた直線(曲線)がどれくらいデータにフィットしているか(underfit/overfit)をあらわす。ほどよいフィットを得るには、学習用/検証用のデータを使ってたとえば近似曲線の次数をいろいろ変えてやってみてグラフをかいてみる。どのグラフの様子から見当をつけることができる。

machine learning - Stanford university

machine learning – Stanford university


・Precision(精度) / Recall(再現率)
がん検診の例でいうと、Precisionはがんと予測したなかで実際にがんである率、Recallは実際にがんであるなかで正しく予測した率。仮説の関数HΘの閾値によってPrecisionとRecallの値を操作することができる。その評価にはF1 scoreというものを使う。
machine learning - Stanford university

machine learning – Stanford university


実際の問題へ応用については、アルゴリズムを適用してグラフを描いてみる、実データの傾向をよりよく表すようにアルゴリズムを改善していく、ということの繰り返しのようです。やはり実務となると泥臭い感じになってきます。
PrecisionとRecallを一瞬でイメージするのは難しいです。毎回しばらく考えないとわかりません。