
こんにちは、ユニファで機械学習エンジニアをしている藤塚です。
現在、顔認識は世の中で当たり前のように使われるようになっており、様々なサービスの基盤になっています。ユニファでも顔認識システムを独自で開発しており、過去のブログで顔認識システムの紹介もしています。 tech.unifa-e.com
現在、さらなる精度向上を目指し基盤モデルの更新を行っています。 今回は、[1] [2505.24247] 50 Years of Automated Face Recognition のサーベイ論文に基づいて、顔認識技術がこれまでどのような道を辿ってきたのかということを振り返ってみました。 歴史的なところから近年の発展、そして現在の課題までを見ていこうと思います。

自動顔認識技術の登場から発展

自動顔認識の登場
初期のコンピュータベースの顔認識システムは1960年代に登場し、特にブレッドソーらの研究で注目を集めました [2]。手動で顔のランドマークの座標を抽出し、それぞれの特徴間における正面向きに正規化した距離を使用して個人を識別するということを行いました。2000枚を超える写真データベースを用いた実験では、人間の認識能力を上回る結果を得たという報告もされています。さらに、1973年に金出武雄先生の博士論文で世界初の完全自動顔認識システムが発表され、この分野に大きな進歩がもたらされました [3]。
特徴量エンジニアリングによる発展
1990年代は顔認識におけるパラダイムシフトの時代であり、人為的な幾何学的特徴量の利用から、画像データに基づいて自動的に抽出される特徴量を利用するものへと移行しました。
その先駆けとしては、主成分分析(PCA)を応用した手法が挙げられます [4]。これは多くの顔画像から主要な特徴(主成分)を抽出し、未知の顔をそれら少数の成分画像の足し合わせとして近似的に表現するものです。このアプローチにより、よりコンパクトで識別性の高い顔表現が獲得でき、当時のコンピュータでも高速で顔認識できるようになりました。
さらに、Elastic Bunch Graph Matching(EBGM)[5] によって顔のランドマークをグラフベースの構造で符号化することで顔の向きの変化などに対して頑健な認識を実現したり、局所バイナリパターン(LBP)[6] やスケール不変特徴変換(SIFT)[7] といったコンピュータビジョンにおける代表的な局所特徴量抽出技術の登場により照明や表情に対する敏感さの軽減など、特徴量エンジニアリングにより顔認識に大きな発展がもたらされました。
ディープラーニングによる発展
ここからは皆さんよく知られているかもしれませんが2010年代にディープラーニングが登場し、顔認識の分野にも革命をもたらしました。

まず DeepFace [8] は、ディープラーニングを顔画像にうまく適用した先駆的な研究です。ベンチマークデータセットで人間とほぼ同等の性能を達成し、顔認識技術を人間レベルの領域にまで押し上げた画期的なマイルストーンとなりました。 DeepFace の興味深い点としては、ネットワーク自体は特定の人物を見分ける「多クラス分類問題」として学習されているにもかかわらず、分類層を取り除いた特徴抽出部分だけを取り出せば、学習データに含まれていない未知の顔の認識にも適用できることを実証したことです。
一方で、顔認識を「分類問題」としてアプローチする場合、学習対象となる人物数が増えれば増えるほどアーキテクチャー全体が巨大になってしまうという構造的な課題を抱えていました。そこで登場したのが、FaceNet [9] です。Triplet Loss と呼ばれる損失関数を用いて距離学習を行うことで顔画像の表現(Embedding)を直接学習させるというような方針を取ります。これにより、人物数の増加によるモデルの肥大化という課題を解決しつつ、当時の最高性能の精度を記録しました。

距離学習は強力である一方で、学習を効果的に進めるためには似ているが異なる人物であるような Hard Negative Pair をうまくサンプリングする必要があるなど、そもそも学習の難易度が高く不安定になりやすいという課題を抱えていました。そこで登場したのが、Margin-based Softmax Loss を用いた学習方法です。距離学習が困難という課題に対して、分類問題として学習させることで距離学習をうまく実現させるような手法になります([10] モダンな深層距離学習 (deep metric learning) 手法: SphereFace, CosFace, ArcFace #DeepLearning - Qiita の解説がとても分かりやすいです)。

Margin-based Softmax Loss を用いた学習方法は実際とても成功し、その発展系も多く提案されています。ここでは2つだけ例を挙げます。
AdaFace [11]
画像の品質に応じて、マージン(学習難易度)を変えて学習させる手法です。
そもそも画像の品質によって認識が難しいサンプルを頑張って学習させようとしても無駄であるため、品質に応じてマージン(学習難易度)を変えて学習させるような損失関数を設計しています。
画像の品質と特徴ベクトルのノルムの間に相関があることが分かったため、品質の代理指標としてノルムを用いてノルムが大きい場合はマージンを大きく取って学習を難しくし、小さい場合はマージンを小さく取って効率的に学習させるという方法をとります。

UniFace [12]
UCE Loss(Unified Cross-Entropy Loss)を用いて、より頑健にして学習を行うことで精度を向上したものになります。ただし、学習コストが高いという短所もあります。
同じ人物の類似度と異なる人物の類似度の分離における課題として、同じ人物の中でも最も似ていないペアでの類似度が、異なる人物の最も似ている類似度よりも低くなってしまうというケースがありました。
上記課題に対して、すべてのポジティブペアの類似度は統一された閾値よりも高く、すべてのネガティブペアの類似度は統一された閾値よりも低くするという強い制約をつけて学習させることで解決したというものになります。

Margin-based Softmax Loss を用いた手法は、顔認識モデルの学習における現在の主流になっています。上記で紹介したような改良であったり、また内部で使われているバックボーンを ResNet から Vision Transformer(ViT)に変更したりするなど継続的に発展は続いています。下記は公開ベンチマークによる各手法の精度を記載したテーブルになっています(詳細は論文 [1] を参照してください)。

データセットの進化
公開データセットの大規模化も顔認識の発展を大きく進めた要因です。下図は、IJB-C データセット [13] の精度を、学習データセットのサイズと人物数でそれぞれプロットしたものです。サイズによって急激な増加が見られます(ただし収束してきている)。

また初期のデータセット(CASIA-WebFace [14] や MS-Celeb-1M(MS1M)[15] など)はインターネット上で公開されている画像ソースから収集されており、その結果として関連付けられたラベルは不正確なものが多く含まれていました。一方で、WebFace42M [16] ではスケラーブルなクリーニングパイプラインを開発し、量だけでなく品質を向上させているという点も特徴的です。
ただし、顔画像データに関してはプライバシーポリシーの観点で公開停止したデータセットも多くあるということは時代の流れを反映しています。例えば、顔画像データセットに関するプライバシー上の懸念を報告した Financial Times の記事が有名です [17]。
現在の顔認識における課題
大規模ID照合
現実世界の顔認識の導入では、数百万から数十億のIDが登録されることが多く、研究ベンチマークで通常評価されるID数と比較してはるかに多くなります。例えば、インドの国家生体認証システムには、14億人以上の生体認証データ(顔画像を含む)が登録されています。このような巨大な規模になると、認識精度のわずかな低下でさえ多数の誤認識や認識漏れにつながり多数のユーザーに大きな影響を与えることになります。

困難な環境下における認識
低解像度、極端なポーズ、遮蔽、変化する照明条件、大規模データベースといったより困難な環境へと移行するにつれ顔認識の性能は大きく低下します。
例えば、KP-RPE [19] では Vision Transformer の位置エンコーディングにおいて、顔のキーポイントから定義される顔固有の座標系を用いて設定をすることで姿勢変動に対する頑健性を向上させ、低解像度・低品質なデータセットで高い性能を記録しています。 また、LLV-FSR [20] では超解像に大規模言語モデルを組み合わせることで高品質な復元ができることを示しています。
一方で、より堅牢な識別を行うためには顔画像のみに頼るだけでは不十分とも考えられ、複数の生体認証モダリティを統合することの重要性が高まっています。体型、歩き方、さらには行動パターンといった追加の手がかりを組み込むことで、認識の堅牢性の向上が考えられています。
例えば、SapiensID [21] は顔認識と身体認識を1つのモデルに統合することを提案しており、顔の情報だけに頼らずに個人を識別できる可能性を検討しています。

基盤モデルの活用
基盤モデルは、顔認識など固有タスクの目的ではなく、汎用タスクのために大量の画像またはテキストデータセットなどで事前学習された大規模モデルです。これらを利用することは、学習に必要な計算コストを下げてくれるという点で大きなメリットがあります。
例えば、[22] の論文において、基盤モデル(CLIP [23] とDINOv2 [24] )を顔認識に利用した場合どうなるのかという点が検証されています。

ゼロショットでは顔専用特化モデルと比較すると精度は明らかに低いですが、ファインチューニングすることで精度は特化モデルと同等以上となっています。特にデータセットのサイズが小さい場合ほど差が大きくなる傾向が見られています。これらの基盤モデルの検証は引き続き今後も重要なトピックだと考えられます。
生成モデルによる人工的なデータセット
上記で述べたようにデータセットを大規模化することは顔認識の発展において重要です。その1つの方向性として生成モデルによる人工的なデータセット作成が挙げられます。 課題としては、生成された顔がリアルに見えるかどうかだけでなく、生成モデルがどれだけ多くの真に区別可能で実用的な人物像を生成できるかという点になります。
例えば、DCFace [25] は数万から数十万枚規模の複数の実画像データセットを用いて学習され、数万件規模の新しい人工的なアイデンティティを生成することに成功しています。 一方 Vec2Face [26] は、さらに大規模な実世界画像データセットを用いて学習されており、DCFace をはるかに凌ぐ数十万件規模の明確に区別された人工的なアイデンティティを生成することを可能にしています。また Vec2Face では、生成するデータ規模を拡大するにつれて、顔認識モデルの精度が一貫して向上することも確認しています。 このスケーリング挙動は、実際の学習データの多様性と豊富さに密接に関係していることを示しています。
また、特徴量空間における超球面上のパッキング問題として容量の上限を推定するための統計的フレームワークを提案し、そこでアイデンティティ生成に関する上限を推定する研究もあります [27]。
これらの研究結果は、生成モデルはアイデンティティの多様性を増幅できるものの、その能力には限界があることを示しており、この観点に関しても今後の課題になると考えられます。
解釈可能性
最後に問題提起だけで詳細は割愛しますが、顔認識には解釈可能性も求められています。モデルはしばしばブラックボックスである一方で、社会的な説明責任(例えば有罪判決の根拠となる法廷証拠など)が問われる場合もあるため説明可能にすることは重要であり、その方面に関しても研究が進んでいます。
まとめ
自動顔認識技術に関して歴史的なところから現代のトピックまでざっと見てきました。 手作業を含む時代から、完全自動化そして人間の精度を超えたところまでと大きな発展をし、現在では認証システムなどサービスの基盤として欠かせないものになっています。一方で、課題もまだ多く残っており、今後も研究の必要性が求められています。 また、ここでは取り上げなかったトピックもたくさんあるため、ご興味がある方は [1] や関連文献を是非読んでみてください。
最後に、ユニファでは随時採用を行っていますので興味のある方は下記サイトをのぞいてみてください。 jobs.unifa-e.com
参考文献
[1] M. Kim, A. Jain and X. Liu, "50 Years of Automated Face Recognition," in IEEE Transactions on Pattern Analysis and Machine Intelligence, 2026, https://arxiv.org/abs/2505.24247.
[2] W. Bledsoe, “Man-machine facial recognition,” Panoramic Research, Inc., Tech. Rep., 1966.
[3] T. Kanade, “Picture processing system by computer complex and recognition of human faces,” Kyoto University, Tech. Rep., 1974.
[4] M. A. Turk, A. Pentland et al., “Face recognition using eigenfaces.” in CVPR, 1991.
[5] L. Wiskott, N. Krüger, N. Kuiger and C. von der Malsburg, "Face recognition by elastic bunch graph matching," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 19, no. 7, pp. 775-779, July 1997.
[6] T. Ahonen, A. Hadid, and M. Pietikainen, “Face recognition with local binary patterns,” in ECCV, 2004.
[7] D. G. Lowe, “Distinctive image features from scale-invariant keypoints,” IJCV, 2004.
[8] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf, “Deepface: Closing the gap to human-level performance in face verification,” in CVPR, 2014.
[9] F. Schroff, D. Kalenichenko, and J. Philbin, “Facenet: A unified embedding for face recognition and clustering,” in CVPR, 2015, [1503.03832] FaceNet: A Unified Embedding for Face Recognition and Clustering.
[10] モダンな深層距離学習 (deep metric learning) 手法: SphereFace, CosFace, ArcFace #DeepLearning - Qiita
[11] M. Kim, A. K. Jain, and X. Liu, “Adaface: Quality adaptive margin for face recognition,” in CVPR, 2022, https://arxiv.org/abs/2204.00964.
[12] J. Zhou, X. Jia, Q. Li, L. Shen, and J. Duan, “Uniface: Unified cross-entropy loss for deep face recognition,” in ICCV, 2023.
[13] B. Maze, J. Adams, J. A. Duncan, N. Kalka, T. Miller, C. Otto, A. K. Jain, W. T. Niggel, J. Anderson, J. Cheney, and P. Grother, “IARPA Janus Benchmark-C: Face dataset and protocol,” in ICB, 2018.
[14] D. Yi, Z. Lei, S. Liao, and S. Z. Li, “Learning face representation from scratch,” arXiv, 2014, https://arxiv.org/abs/1411.7923.
[15] Y. Guo, L. Zhang, Y. Hu, X. He, and J. Gao, “Ms-celeb-1m: A dataset and benchmark for large-scale face recognition,” in ECCV, 2016, https://arxiv.org/abs/1607.08221.
[16] Z. Zhu, G. Huang, J. Deng, Y. Ye, J. Huang, X. Chen, J. Zhu, T. Yang, J. Lu, D. Du et al., “Webface260m: A benchmark unveiling the power of million-scale deep face recognition,” in CVPR, 2021, https://arxiv.org/abs/2103.04098.
[17] https://www.ft.com/content/cf19b956-60a2-11e9-b285-3acd5d43599e
[18] N. D. Kalka, B. Maze, J. A. Duncan, K. O’Connor, S. Elliott, K. Hebert, J. Bryan, and A. K. Jain, “IJB–S: IARPA Janus Surveillance Video Benchmark,” in BTAS, 2018.
[19] M. Kim, Y. Su, F. Liu, A. Jain, and X. Liu, “Keypoint relative position encoding for face recognition,” in CVPR, 2024, https://arxiv.org/abs/2403.14852.
[20] C. Wang, W. An, K. Jiang, X. Liu, and J. Jiang, “Llv-fsr: Exploiting large language-vision prior for face super-resolution,” arXiv, 2024, https://arxiv.org/abs/2411.09293.
[21] M. Kim, D. Ye, Y. Su, F. Liu, and X. Liu, “Sapiensid: Foundation for human recognition,” in CVPR, 2025, https://arxiv.org/abs/2504.04708.
[22] T. Chettaoui, N. Damer, and F. Boutros, “FRoundation: Are foundation models ready for face recognition?” IVC, 2025, https://arxiv.org/abs/2410.23831.
[23] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark et al., “Learning transferable visual models from natural language supervision,” in ICML, 2021, https://arxiv.org/abs/2103.00020.
[24] M. Oquab, T. Darcet, T. Moutakanni, H. Vo, M. Szafraniec, V. Khalidov, P. Fernandez, D. Haziza, F. Massa, A. El-Nouby et al., “Dinov2: Learning robust visual features without supervision,” arXiv, 2023, https://arxiv.org/abs/2304.07193.
[25] M. Kim, F. Liu, A. Jain, and X. Liu, “Dcface: Synthetic face generation with dual condition diffusion model,” in CVPR, 2023, https://arxiv.org/abs/2304.07060.
[26] H. Wu, J. Singh, S. Tian, L. Zheng, and K. W. Bowyer, “Vec2face: Scaling face dataset generation with loosely constrained vectors,” in ICLR, 2025, https://arxiv.org/abs/2409.02979.
[27] V. N. Boddeti, G. Sreekumar, and A. Ross, “On the biometric capacity of generative face models,” in IJCB, 2023, https://arxiv.org/abs/2308.02065.