前回のブログで触れた通り、私たちは多くの種類のデータセットを集めることに成功しました。今回は、データを収集した後のプロセスに関して解説します。
4.データの整理
データ収集が完了し、私たちはそれをまとまったデータセットに整理するという複雑な作業に直面しました。これを解決するために、私たちはTRACEの原則に従いました。TRACEとは、データを効果的に管理するためのガイドラインです。
TRACEは以下を表します。
Trackable
データセットは、AIサイエンティストから意思決定者まで、すべてのユーザーにとって簡単に操作できるものでなければなりません。これには、画像の数、使用目的、収集の詳細、ファイルサイズ、更新履歴、データへのアクセス性などの主要情報への明確なアクセスが含まれます。
Readable
わかりやすさは最も重要です。ラベルや列名からフォルダ構造やファイル名まで、直感的に理解できるようにし、誤解を招く可能性を低減します。
Applicable
データセットは、既存のアプリケーションやパイプラインとシームレスに統合できるように設計されているため、将来的な再構築の必要がありません。進行中のプロジェクトですぐに役立つように調整されています。
Clean
品質管理は極めて重要です。不適切にキャプチャされた画像やAIモデルにエラーをもたらす可能性のあるデータなど、データセットの有効性を損なう可能性のあるデータを除外します。
Extendable
将来の使用に対する柔軟性は重要な考慮事項です。データセットの構造は、データの追加や新しいカテゴリーに容易に対応できるように設計されており、進化するユースケースを予測し適応します。
5.手動によるレビューは必要か?
自動化ツールがデータクリーニングプロセスを担う際に、手動によるレビューの必要性が頻繁に問われます。データ・クリーニングのための自動化されたツールが充実しておりますが、データサイエンスリーダーは「どれだけ自動化パイプラインを構築しても、最終的には見落としが発生することがあります。重要なのは人の目です」と語ります。人手を介したレビューは、見落とされたエラーを発見するだけでなく、作成したデータセットに対する理解を深めてくれます。
6.データセットの完成
このデータセットは、データサイエンスチームからの重要な成果物であるだけでなく、会社の貴重な資産でもあります。そのため、包括的なデータセットを完成させるには、いくつかの重要な原則に従います。
自動化と人の洞察力のバランス
効率化のために自動化されたプロセスに頼る一方で、私たちは常に人が介入する余地を残しています。データ品質の維持には技術の精度と人の洞察力が融合させることが不可欠です。
データ受け入れ率の監視
データの受け入れ率を注視することは極めて重要です。データセットの品質と信頼性の指標となり、データ収集方法を継続的に改善するのに役立ちます。
A/Bテストのフレームワークを早期に設計
早い段階でA/Bテストのワークフローとスプリットを確立することが重要です。このアプローチにより、データを効果的にテスト・検証し、正確で信頼性の高いAIモデルのトレーニングに必要な厳格な基準を満たす事が可能です。
次回のブログでは、データサイエンティストの役割をさらに掘り下げ、彼らがどのようにこの生データをAIモデルをトレーニングするための強力なツールに変えるのかを深掘りします。データサイエンスの世界とAI開発への影響についての洞察にご期待ください。