デベロッパーブログ

顔認識用トレーニングデータの収集方法 Part3

公開日:

データセットが単に大きいだけでなく、一流のAIモデルを開発するための完璧な準備を確認することに重点を置きながら、最終段階へとご案内します。
前回のブログでは、特別なデータセットの最終仕上げを行い、当社のコレクションに新たな貴重な資産を加えました。今回はこのデータセットをMLエンジニアに引き渡すにあたり、ダブルチェックし、すべてが完璧であることを確認しましょう。

7. なぜもう一度チェックするのか?

「2 度測定し、1 度カットする」という知恵は、データサイエンスでは特にAIトレーニング用のデータセットを最終調整する際に認識されます。データを整理した後、再度チェックを行います。 この段階での冗長検証は、以前に見落とされたかもしれない矛盾やエラーが長引かないようにするための重要な安全策です。

理論的には、徹底的な自動チェックと手動チェックを経て、データセットは完璧になるはずです。 ただし、実際にはデータセットの配信開始時のこの二重チェックプロセス中に常に間違いが発見されます。
このような最終チェックによって、データが私たちの厳格な品質基準を遵守し、全体を通して一貫性と整合性が保たれていることが保証されるのです。さらに、この段階で自動化ツールと人の監視の双方を活用することで、欠陥のあるデータでAIモデルをトレーニングするリスクを大幅に削減し、モデルの能力をより高い精度で発揮できるようにしています。


8. データセットの結合

新しいデータセットとすでに使っているデータセットを組み合わせる必要があります。そこで、データセットをミックス&マッチングさせる技術が必要になります。単にレゴブロックを積み上げるのではなく、それぞれのピースが重要なパズルをつなぎ合わせるようなものとして考えられます。
例えば、顔認識モデルをトレーニングしようとするとき、私たちはAIモデルに顔の違いを見分けることを教えています。つまり、すべての写真にはuser_idがタグ付けされ、すべてのスナップショットが同一人物のものであることを示します。有名人画像のように多くの人の目に触れる顔は、複数のデータセットが現れることがあり、その結果、2つの異なるユーザーIDを持つことになります。したがって、それらを組み合わせる方法を考える必要があるのです。

当社では、データセットを結合する際に2段階の重複排除を行っています。

  1. 各user_idからいくつかの画像をサブサンプルする。様々な顔認識モデルをクロス・バリデーションにかけた後、user_idの重複を見つける。その後、2つのuser_idをマージする。
  2. 特に画像数が10Mに達すると、異なるデータセットに同じ画像が重複して存在する可能性がある。あまりに似ている画像(トリミングや解像度の違いだけ)は、この段階で重複排除する必要がある。

9. データ分割の作成

データセットの準備が整ったところで、いよいよデータセットを「データ分割」と呼ぶものに分けていきます。それぞれを特別な役割を持つ異なるチームとして考えてください。 トレーニングセット、検証セット、テストセットがあります。
この設定は、モデル・トレーニングを真っ当なものに保つために非常に重要です。テストセットをうっかり覗き見することなく、エンジニアがトレーニングに適切なデータを使用できるようにするためです。なぜでしょうか?テストセットをベンチマークに使いたいためです。テストセットをトレーニングの進行状況に加えると、誰かがクイズでカンニングするように、結果が偏ってしまいます。


10. おわりに

最初の未加工データの収集から、AIトレーニング前の入念な最終仕上げまでの冒険を振り返ると、私たちはその道のりを本当に誇りに思っています。品質に対する高い基準を守り、多様性を受け入れ、細部にまで注意を払うことがすべてです。私たちがまとめたデータセットは、最先端であるだけでなく、倫理的責任と包括性を念頭に置いて構築された顔認識モデルを作るための基礎のようなものです。私たちが大きな夢を描き、本当に特別なものを作り上げるための一種の強固な基盤です。


このシリーズは、私たちのチームの共同作業と、データ準備の各段階で得られた貴重な洞察を示しています。顔認識におけるAIの最前線を押し進めながら、私たちのプロセスを改善し、発見を共有することへのコミットメントは揺るぎません。AIイノベーションの新たな道を切り開くため、さらなるアップデートにご期待ください。

CONTACT

ご相談、お⾒積もりのご依頼
などお気軽にお問い合わせください。

日本コンピュータビジョン(通称:JCV)について

日本コンピュータビジョン株式会社は、ソフトバンク株式会社を親会社とするAIカンパニーで、
画像認識技術を活用し、“スマートビルディング分野”と“スマートリテール分野”に対して
最先端ソリューションを提供します。