機械学習ではデータ集めが大事

これは2022/04/12のMK社内LTで発表した内容です。

はじめに

  • アルバイト/工学系大学院生の鈴木です
  • 機械学習をテーマに卒業研究をしました
    • CT画像からとある部位を検出/その種類を判定
  • が、あんまりうまくいかなかった
  • 私の失敗が何かに活きれば😌

精度=アーキテクチャ×データセット

  • アーキテクチャはGoogleとかMITとか、すごい人たちが頑張って考えている
  • 私たちにどうこうできるのは、たいていデータセット

データセットを集められる見込みはありますか?

Webに落ちてる/すでに大量に蓄積されている、ならいいけれど・・・

例えば、医療系AIのデータセットでのハードル

  • データを使わせてもらうための患者の許可(プライバシー)
  • データに対してのアノテーションが医師にしかできない

私の研究で集まったのは患者約50人分(約400例)のCT画像

うまくいっているAIでは約4000例使っているらしい

  • 50人分でうまくいくわけないよ〜

Q.データが集まらないとどうしようもないの?→A.データ拡張

画像系なら・・・

  • 単純な画像処理
    • 拡大縮小・切り抜き・色調変換etc.
    • 効果小・コスト小
  • GANによる拡張
    • 学習データを作るAIを作る
    • 効果大・コスト大

データ拡張にどれくらいコストをかけられるか?

まとめ

データセットが集まる見込みがないのに、見切り発車するのは危険です!

この記事をシェア

弊社では、一緒に会社を面白くしてくれる仲間を募集しています。
お気軽にお問い合わせください!