[DL輪読会]FaceForensics++: Learning to Detect Manipulated Facial Images

>100 Views

October 04, 19

スライド概要

2019/10/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] FaceForensics++: Learning to Detect Manipulated Facial Images Koichiro Tamura, Matsuo Lab http://deeplearning.jp/

2.

Paper Information • [19.08] FaceForensics++: Learning to Detect Manipulated Facial Images – Andreas Rössler, Davide Cozzolino, Luisa Verdoliva, Christian Riess, Justus Thies, Matthias Nießner – https://arxiv.org/abs/1901.08971 – ICCV2019 – 所謂対Deepfake⽤のデータセット(FaceForensics Benchmark)およびその検証実験の研究 • ドイツのミュンヘン⼯科⼤学と、イタリアのフェデリコ2世ナポリ⼤学が主導する研究 • 2019年9⽉24⽇、Googleが俳優28⼈が登場する3000本の改変動画を、 FaceForensics Benchmarkに提供 したことで話題に – FaceForensics Benchmark • GitHub: https://github.com/ondyari/FaceForensics/ – 顔認証/認識の導⼊が進み、実適⽤においても重要であるため、研究概要を整理 • オフラインだけでなく、オンラインでの顔認証のトレンドも(ex: 昨年の法改正に伴うデジタル本⼈認証) • そもそもDeepFakeはテクノロジーで防げるのか︖ • 海外のデータセットは、GAFAが主導するが、⽇本は︖ 2

3.

facial manipulationの前提整理 1. facial expression manipulation(Facial Reenactment): 対象の顔画像の表情を、別の顔画 像の表情に変換する - Face2Face - NeuralTextures 2. facial identity manipulation(Identity Swap): 顔ごと変える - DeepFakes - FaceSwap 3

4.

研究の貢献 1. ⽐較可能なベンチマークおよびその⾃動的な仕組み(2週間で更新されるな ど)を作成したこと 2. 1000以上の動画から作られた180万画像ほどのデータセットを作成・提供 したこと 3. 様々な条件下での検証を⾏ったこと 4. SOTAの顔画像不正検知アルゴリズムの提案 4

5.

周辺知識と関連研究 • Face Manipulation methods – 3D特徴点モデリングと画像でのレンダリングを⽤いた⽣成 – Deep Learning(特にGANs)を⽤いた⽣成 • Multimedia Forensics – 画像/動画の情報のみから、画像/動画の信頼性を確認する研究 – まばたきや⾊合いなど、特定の特徴量に着⽬した⼿法 -> 堅牢性(特に解像度に対して)が課題 – 異なる条件(特に解像度)をカバーした⼤規模データセットが必要 • Forensic Analysis Datasets – 既存のデータセットは、x00~x0,000の画像数の規模 – (本論⽂のデータセットは、180万の画像数) 5

6.

FaceForensics++ • 1000の動画、180万画像数のFakeデータセット – Youtubeなどから、1000動画をダウンロード – 顔が隠れている、正⾯を向いていないframeを排除 – 以下の4つのFace manipulationを実⾏ 1. 2. 3. 4. FaceSwap DeepFakes Face2Face Neuraltextures – 様々な画質に圧縮 6

7.

FaceForensics++ 1. FaceSwap – 顔の特徴点を抽出し、3Dの型に適合。顔の特徴点位置のずれを最⼩化したのち、⾊補正などを加 えて⽣成 2. DeepFakes – Encoderをシェアした2つのauto encoderを、それぞれ顔画像に対して学習させ、顔を切り抜い た画像に対して(対の) decoderを適⽤ 3. Face2Face – – Frameごとに特徴点座標、彩度、表情の情報をそれぞれ獲得し、レンダリング https://web.stanford.edu/~zollhoef/papers/CVPR2016_Face2Face/paper.pdf 4. NeuralTextures – – Photometric Reconstruction lossを含むGANを⽤いて、レンダリングを含む合成を⾏う https://arxiv.org/pdf/1904.12356.pdf 7

8.

⼈による検証 • 204⼈の学⽣(闇を感じる)による、⼈による検知 • 本物:偽物 = 50:50のテスト – => この⽐率でいいのか?実際のシーンでは、偽物が来るとは想定していないシーンでの精度が求め られるはず 8

9.

検知モデル 9

10.

検出モデル • まずは、顔検出のアルゴリズムを挟むことがポイント • 実験では、 以下を⽐較検証 1. Steg.Features+SVM: 4ピクセルの共起パターンを特徴量として、SVMのモデル。低解像度に弱 い 2. Cozzolino et al.: CNNの特徴量抽出を⽤いた、SVMのモデル 3. Bayer and Stamm: constrained CNN 4. Rahmouni et al.: global pooling layerを⽤いた CNN 5. MesoInception-4: InceptionNet 6. XceptionNet: ImageNetでpretrained済み 10

11.

結果 顔検出を挟まないと、精度は低い 注)解像度は、Raw > HQ > LQです 11

12.

結果 • ひっくるめて学習すると、精度はやはり 落ちてしまう • 実⽤ではアンサンブルするのが良いか︖ 注)解像度は、Raw > HQ > LQです 12

13.

データセット規模について検証 13

14.

ベンチマークの公開 • https://github.com/ondyari/FaceForensics/ • ベンチマークのシステムを公開 – 1000の追加の動画を収集し、1000画像をランダムにサンプリング – 2週間ごとに更新して過学習したモデルの過⼤評価を防ぐ 14

15.

ライセンス • ScriptはMIT • データセットは、研究⽬的のみ(商⽤不可) – http://kaldir.vc.in.tum.de/faceforensics_tos.pdf – ⽂⾔から、商⽤を絶対許さない意志を感じる。商⽤可能にしてくれ〜 15

16.

所感・考察 • 50:50の実験環境では⾼いAccuracyの値であるが、Fake動画像は⼀般的には想定されない シーンでは、どれくらい機能するのか︖Recallが⼤事になるはず • データセット数を増やせば、特定の不正アルゴリズムには、実⽤レベルで対応できるように なっている • 論⽂の考察にもあったが、現状は新しい不正アルゴリズムが出てきた場合、対応する検知 データセットを作る必要がある(⼀部転移学習などで成功はしているよう)。不正アルゴリズ ムが未知(⾮公開など)の場合も⼗分想定され、データセットなしで対応するロバストなアル ゴリズムが将来必要になる • ⽇本⼈のデータセットを作る必要性がある • デジタル上での顔認証は、センサデバイスを指定/制限した上で、liveness detectionの技術 の重要度が増すはず 16