RealNetworks社 コンピュータービジョン担当GM兼 副社長 ダン グリム
2019年7月19日

米国国立標準技術研究所 (NIST) は、顔認識アルゴリズムの継続的な一連のテスト(FRVT)を実施して、精度、性能、およびバイアスを含む顔認識アルゴリズムの重要な特性を測定しています。企業および学術機関は、NISTが一連のテストに適用する1つ以上のアルゴリズムを提出する機会が与えられます。 最新の2つのFRVTテスト結果は、それぞれ370ページ以上の長さで、2019年4月2019年7月に公開されました。 .

96%の精度を超えたアルゴリズムにおけるコホート分析ではSAFRが最速かつ最軽量のモデルでした

2019年7月実施のテストによると、SAFRは最上位の精度で0.0335未満の偽不一致(本人拒否)率を誇り、カメラを意識しない顔(ワイルドイメージ)の顔認識アルゴリズム中で、最速かつ最もコンパクトなモデルという結果でした。他の高精度アルゴリズムと比較して、SAFRは平均より2倍速く、2番目に小さいアルゴリズムよりも35パーセント小さくなっています。 SAFRは、2019年4月のNISTでテストされた最速のアルゴリズムであり、7月の最新テストではその速度が30%向上しました。 SAFRは、マサチューセッツ大学の顔画像データセットで99.86%の精度が証明されています。

NISTは、性能、精度、バイアスの測定などの顔アルゴリズムにおける特性を測定するだけでなく、ビザ写真、マグショット、ウェブカメラ、ワイルドイメージなどの画像タイプ ごとにそれらの属性についても測定します。 ワイルドイメージは、ビデオでキャプチャされたカメラを意識していない顔です。言うまでもなく顔が傾いている可能性があるため、ヨー(軸)とピッチ(軸)が異なるポーズのバリエーションが広く、複雑です。そしてビデオフレーム内にはたくさんの顔があります。ワイルドイメージは、時に非常に認識が難しい品質の顔画像を含んでおり、まさに現実世界の条件下と同じものと言えます。NISTは、静止写真を使用して顔認識のテストを実施していますが、ライブビデオでの顔認識には、取得方法、精度、速度の調和がとれた最適化を必要とします。

RealNetworksのSAFRは、NISTがテストした顔認識アルゴリズムの中で最もライブビデオ用に最適化されています

ベンダー、研究者、および学術機関は、顔認識ベンダーテスト(FRVT)用に最適化したアルゴリズムを提出することができ、必ずしも実際の商用の顔認識アルゴリズムを提出する 必要はありません。すなわち、ベンダーや学術機関は、精度に特化したアルゴリズムを 提出できますが、実際の商業環境では、計算量が多くなると実用的ではありません。 たとえば、2019年7月のFRVTの結果では、いくつかのアルゴリズムがワイルドイメージにおいて、非常に高い精度を達成しましたが、実行速度が非常に遅く(SAFRアルゴリズムよりも1.5倍から55倍遅い)現実世界の多くの状況では実行困難 なうえ、信じられないような高価な演算能力を持つハードウェアや認識に長時間を必要とし、ビデオに映る多くの顔を適切に処理できません。

NISTによってテストされたアルゴリズムの一部は、F1レースカーに少し似ています。特定のサーキットではうまく機能するように設計されていますが、ノイズ、ブレーキ、性能、安全性などの条件がよく考えられたバランスのよさを必要とされる一般用途には向いていません。

7月の報告書をもとにSAFRは最高評価のアルゴリズムに比べてどのように評価すればいいでしょうか?例えば、ワイルドフェイスにおける最も精度が高いアルゴリズムのスコアは0.0271ですが、スコアが0.0334のSAFRの実行速度と比べると3.6倍の時間がかかり、サイズは7倍です。多くのアルゴリズムは精度では優れていますが、大規模な現実世界の商用利用を考慮して設計されているSAFRと比較すると、下のグラフで示すように3〜4倍遅いという結果が出ており、 これははるかに多くの計算量(ハードウェア)が必要であることを示します。つまり、ワイルドイメージの精度を0.0064上げるために、パフォーマンスとコストが犠牲になるのです。

SAFR Speed

高いパフォーマンスであれば、計算上の制約があるシステムにおいて認識を実行する回数を増やすため、結果に重要な違いをもたらします。 96%の精度を超えるアルゴリズムのコホートではSAFRは最速かつ最軽量のモデルです。これはSAFRが他のアルゴリズムと同じ時間により多くの顔認識を実行できることを意味します。その結果、SAFRの精度向上の貢献しています。

SAFRは、静止画像における顔認識の精度において非常に競争力があります。 NISTによるテストでは、世界のトップ25の市販製品にランクインしており、米国企業としてはトップ6に入っています。 ただし、前述のように、NISTの精度スコアは性能の全体像を伝えるものではありません。NISTは、1つの画像をワイルドイメージの顔と一致させ測定しますが、実際の環境では、ビデオフレーム内で人々は常に動いています。 SAFRは、エッジインテリジェンスを使用して、数百のビデオフレームから適切な画像を選択します。そのため、SAFRはNISTで測定されたものよりも高い精度を達成することができまるということです。SAFRはビデオ映像において、認識に最適なフレームを連続してキャプチャして送信するためです。NISTのテストではビデオ画像を使用しません。

Increasing Accuracy of Recognition in Video Operation

このチャートは、いかにSAFRが優れたパフォーマンスを発揮しているか、さらにSAFRが連続したマッチングによって精度を向上させているかを示しています。

SAFRは同クラスの多くのアルゴリズムが必要とする演算能力に比べて、非常に低い演算能力で同じレベルの精度を得ているので、他の顔認識アルゴリズムとは一線を画しています。NISTに参加する多くの企業は、精度面で高いスコアを達成するように設計されていますが、 パフォーマンスと精度のバランスをとることができていません。 RealNetworksのSAFRは、容易に入手可能なハードウェアを使用して現実世界の状況に対応しており、最小限のバイアスで最高の精度とパフォーマンスを提供することを 約束します。

つまりSAFRは、現実世界での顔認識のための最高のプラットフォームなのです。

– – – – –
※NISTのテスト結果は、NISTが特定のシステム、製品、サービスまたは会社を推奨するものではありません。