概要
AIの精度を高めるには、良質な学習データを用意する必要があります。
学習データが精度を決定する9割の要素であり、残りの1割は尤度しきい値の調整と言われています。
学習データを良質なものにするためには、撮影方法やアノテーションを工夫する必要がありますので、本記事ではその点についてご紹介します。
画像準備
まず、画像を準備する際に以下のポイントをチェックしましょう。
- 撮影環境
- 学習データと推論データは同じ撮影環境であることが望ましい
(撮影環境が異なれば、光の当たり方によって色の違いや影が発生する可能性がある) - 学習用画像に検出対象物がはっきりと写っているか
(画質が低かったり、ぼやけている画像をなるべく避ける)
- 学習データと推論データは同じ撮影環境であることが望ましい
- 画像
- 想定されるバリエーション(形状、色、大きさ、方向等)がなるべく多く含まれるデータセットであるべき
- 各ラベルの画像を均等に用意する
(画像枚数の偏りがあった場合は、AIモデルの性能も偏ってしまう)
※学習開始には20件以上の学習データ(各ラベルにつき2件以上)が必要です
アノテーション
基本的に、対象物がギリギリ枠内に収まるような囲み方が理想なアノテーションです。
アノテーションの枠内に対象物以外が含まれていると、その異物も対象物の要素として学習する可能性があり、精度低下に繋がる恐れがあります。
また、全ての画像に対して一貫性のあるアノテーションを実施することも重要なポイントの一つです。
*「一貫性がある」とは、例えば、猫の画像をアノテーションする時にある画像では顔のみ、別の画像では体全体をアノテーションというような付け方ではなく、「顔のみをアノテーションする」などのルールを決めたやり方です。
精度の高いAIモデルを構築するためにも、今回ご紹介したポイントを踏まえて学習データを作成するようにしてみましょう!