機械学習ではデータ集めが大事

2022年 04月 13日水曜日

機械学習

これは2022/04/12のMK社内LTで発表した内容です。

はじめに

アルバイト/工学系大学院生の鈴木です
機械学習をテーマに卒業研究をしました
- CT画像からとある部位を検出/その種類を判定
が、あんまりうまくいかなかった
私の失敗が何かに活きれば😌

精度＝アーキテクチャ×データセット

アーキテクチャはGoogleとかMITとか、すごい人たちが頑張って考えている
私たちにどうこうできるのは、たいていデータセット

データセットを集められる見込みはありますか？

Webに落ちてる/すでに大量に蓄積されている、ならいいけれど・・・

例えば、医療系AIのデータセットでのハードル

データを使わせてもらうための患者の許可（プライバシー）
データに対してのアノテーションが医師にしかできない

私の研究で集まったのは患者約50人分(約400例)のCT画像

うまくいっているAIでは約4000例使っているらしい

50人分でうまくいくわけないよ〜

Q.データが集まらないとどうしようもないの？→A.データ拡張

画像系なら・・・

単純な画像処理
- 拡大縮小・切り抜き・色調変換etc.
- 効果小・コスト小
GANによる拡張
- 学習データを作るAIを作る
- 効果大・コスト大

データ拡張にどれくらいコストをかけられるか？

まとめ

データセットが集まる見込みがないのに、見切り発車するのは危険です！

この記事をシェア

2020-2026

弊社では、一緒に会社を面白くしてくれる仲間を募集しています。
お気軽にお問い合わせください！

P.S. よろしければこちらもどうぞ
新明工業クラシックカーレストア blog — クラシックカーのレストアのお仕事の一部を公開しています。
新明工業コンベア blog — コンベアに関する技術情報を発信しています。