現代のインテリジェントシステムは、年齢/性別/表情(感情)予測などの顔の解析を、画像や動画に組み込むことが増えています。この関心の高まりは、深層畳み込みニューラルネットワーク(CNN)を利用した多くの洗練された技術と多くの研究論文がベースとなっています。
現在、最も優れた結果のひとつは、ピラミッドと超解像度(PSR)を使用した、Deep Attentive Center Loss(DACL)とARM法を組み合わせた広範なVGG-16ネットワークによって提供されています。このアプローチは、De-albinoとAffinityを介してResNet-18の顔表現を利用することで、トップクラスの精度を示しています。
我々の笑顔検出アプローチは、「幸せ」クラスの信頼スコアを笑顔スコアとして使用しています。これは従来の方法と異なりますが、「笑顔の強さは幸せの度合いとよく似ている」というシンプルな原理に根ざしています。満面の笑みを浮かべ、喜びを爆発させている人を想像してみてください。彼らはおそらく幸せであるという高い信頼スコアとなるでしょう。逆に、笑顔の乏しい人は低いスコアを示すかもしれません。これらのスコアを活用することで、微笑みから満面の笑みまでをよく理解し、検出された感情に対してより詳細な洞察を得ることができます。
課題
リアルタイムアプリケーションでは、高いクエリ数(QPS)の達成と迅速な応答時間の確保が重要です。しかし、これらはニューラルネットワークの複雑さに影響されることが多く、エッジデバイスへの展開が困難です。さらに、エッジ展開には必要不可欠な軽量モデルの追求は、時には精度を犠牲にすることがあり、高度なバランスを保つことが求められます。
我々(JCV)は、AffectNet-HQデータセットを使用した幸せ画像の分類タスクで、95.71%以上の成功率で、8MBのモデルサイズを達成しました。詳細については、オンラインAPIをご覧ください。
今後
感情検出の研究は、革新的なニューラルネットワークモデルによって進歩し、デバイスが人のコマンドだけでなく感情も理解する未来を示しています。継続的な研究と改良により、近い将来、我々の感情を真に感じるデバイスとシームレスに対話できるようになるでしょう。
参考文献:
Savchenko, A. V. (2021). Facial expression and attributes recognition. SISY, IEEE.Farzaneh, A.H., Qi, X.(2021): Facial expression recognition in the wild via deep attentive center loss. IEEE
Shi, J., Zhu, S. (2021). Learning to amend facial expression representation via de-albino and affinity.
Wen, Z., Lin, W., Wang, T., Xu, G. (2021). Distract your attention: Multi-head cross attention network for facial expression recognition.
Savchenko, A. (2023). Facial Expression Recognition with Adaptive Frame Rate. ICML, PMLR.