機械学習ではデータ集めが大事
2022年 04月 13日 水曜日
これは2022/04/12のMK社内LTで発表した内容です。
はじめに
- アルバイト/工学系大学院生の鈴木です
- 機械学習をテーマに卒業研究をしました
- CT画像からとある部位を検出/その種類を判定
- が、あんまりうまくいかなかった
- 私の失敗が何かに活きれば😌
精度=アーキテクチャ×データセット
- アーキテクチャはGoogleとかMITとか、すごい人たちが頑張って考えている
- 私たちにどうこうできるのは、たいていデータセット
データセットを集められる見込みはありますか?
Webに落ちてる/すでに大量に蓄積されている、ならいいけれど・・・
例えば、医療系AIのデータセットでのハードル
- データを使わせてもらうための患者の許可(プライバシー)
- データに対してのアノテーションが医師にしかできない
私の研究で集まったのは患者約50人分(約400例)のCT画像
うまくいっているAIでは約4000例使っているらしい
- 50人分でうまくいくわけないよ〜
Q.データが集まらないとどうしようもないの?→A.データ拡張
画像系なら・・・
- 単純な画像処理
- 拡大縮小・切り抜き・色調変換etc.
- 効果小・コスト小
- GANによる拡張
- 学習データを作るAIを作る
- 効果大・コスト大
データ拡張にどれくらいコストをかけられるか?
まとめ
データセットが集まる見込みがないのに、見切り発車するのは危険です!
この記事をシェア