[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP

>100 Views

November 05, 21

スライド概要

2021/11/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Wav2CLIP: Learning Robust Audio Representations From CLIP 岡田 領 / Ryo Okada 1

2.

書誌情報 Wav2CLIP: Learning Robust Audio Representations From CLIP ● Ho-Hsiang Wu, Prem Seetharaman, Kundan Kumar, Juan Pablo Bello ● Music and Audio Research Laboratory, New York University, USA, Descript, Inc. ● Arxiv投稿:2021/10/21 ● https://descriptinc.github.io/lyrebird-wav2clip/ ● ICASSP 2022投稿 ● Tweets, Reddit postで少し話題 ● CLIPの表現を音声に拡張.音楽から動画生成が できる(右Twitterでの例) https://twitter.com/pseetharaman/status/1453452915843108864?s= 20 2

3.

先行研究 ● 複数モーダルを扱った自己教師あり学習が発展 ● 音声の分野 ▸ Youtubeなどの大量データから音声と画像の関係を自己教師あり学習(OpenL3など) ● 画像とテキストの学習 ▸ CLIP ✓ Webから収集した画像と文章がペアの4億組の訓練データで学習 ✓ 画像と言語のマルチモーダルな潜在表現を獲得 ● 提案手法(Wav2CLIP) ▸ CLIPを蒸留するような形で音声と画像の関係を学習したモデルの提案 3

4.

先行研究:CLIP(Contrastive Language-Image Pre-training) ● Webから収集した「画像+テキスト」4億組の訓練データ ● 画像からその画像に対応する真の記述文を、ランダムに選ばれた他の 32,768個の記述 文の中から見つけだす対照学習でマルチモーダルな埋め込み空間を学習 ● 与えられたテキストと画像の間の意味的な類似性の推定をゼロショット学習で可能 4

5.

類似研究:AudioCLIP AudioCLIP: Extending CLIP to Image, Text and Audio ● Andrey Guzhov, Federico Raue, Jörn Hees, Andreas Dengel ● DFKI GmbH, TU Kaiserslautern ● Arxiv投稿:2021/7/24 ● これもCLIPを音声に拡張した研究 (Wav2CLIPの論文内にあまり言及がなか ったが) 5

6.

類似研究:AudioCLIP ● 音声分類モデルESResNeXtをCLIPに組み合わ せる.CLIPのlossと同様の仕組みで,文章と 音声,画像と音声のlossを追加 ● ①ImageNetで学習済みのESResNeXtを AudioSetデータセットでAudio Headを事前学 習 ● ②AudioSetの音声,テキスト(ラベル), ビデオの画像で3つHeadをfine tune. ● ③音声分類タスクのデータでAudio Headを 調整 ● 音声分類タスクの2つの環境音データセッ ト(UrbanSound8K, ESC-50)でSOTA 6

7.

提案手法:Wav2CLIP ● CLIPの学習済みモデルの重みを固定.動画 (VGGSoundデータセット)のimageと audioの対応関係からAudio Encoderを学習. (蒸留のような形式) ● CLIPと同様の対照学習のlossを使用 ● 上記事前訓練後,重みを固定してタスクご と特徴抽出器として利用可能.(評価タス クではタスクごと追加の層を加えて学習) 7

8.

AudioCLIPとWav2CLIPの違い ● 学習方法の違い ▸ AudioCLIPは画像,文章,音声の関係をファインチューニングして調整 ▸ Wav2CLIPはCLIPモデル(画像,文章)の重みは固定し,音声の表現をCLIPに 合わせるように学習 ● 音声表現を獲得するデータセットが違い ▸ AudioCLIP: AudioSet(~1.8M, ~20k eva set 10second clips, 527classes, youtube) ▸ Wav2CLIP: VGGSound(~200k 10second clips, 309classes, youtube) ● その他 ▸ AudioCLIPは評価タスクに合わせて強めに調整(Audioエンコーダを更新) 8

9.

実験概要 ● 評価タスク ▸ 分類(MC, ML) ✓ ▸ オーディオ検索(AR) ▸ クロスモーダル検索(CMR) ✓ ▸ 潜在空間で音声表現と近いテキストを抽出 音声キャプショニング(AC) ✓ ● 2層のMLP分類器を訓練 1層のtransformerデコーダを訓練し,文章生成 音声表現モデルと比較 ▸ OpenL3 ✓ ▸ AudioSetデータセットで自己教師あり訓練 YamNet ✓ AudioSetで教師あり学習 9

10.

実験結果 ● SOTAには及ばず,他の音声表現モデルOpenL3, YamNetと同等か,上回る性能(分類) ● ゼロショット分類はランダムよりは良い結果とのこと ● 音声検索タスクでもOpenL3より良い結果 10

11.

実験結果 ● 音声キャプショニングの結果 ● ベースラインをわずかに上回る結果 11

12.

実験結果 ● VGGSoundデータの分類タスクでデー タ量の比較 ● YamNetとWav2CLIPは少ないデータ量 で高い性能が出ている 12

13.

実験結果 ● VQGAN-CLIP(VQGANの生成画 像をCLIPの潜在空間でテキスト に近づける)の仕組みを音声入 力に置き換えて音声からの画像 生成を実施 ● UrbanSound8Kデータセット (環境音)で試した結果 ● テキスト(上段) ● 音声(下段) 13

14.

実験結果 ● musdb18(楽曲のデータセッ ト)を使った結果 ● ボーカル,ベース,ドラム, その他,合算した音声からそ れぞれ生成 ● 上段,下段で別の曲 14

15.

まとめ ● CLIPの表現を音声にも拡張し,画像,文章,音声のマルチモーダルな関係を獲得 ● 学習済みのCLIPから蒸留するような形で音声エンコーダを学習した ● 音声から画像(動画)生成の実例を示した ● 音声は画像,文章に続き,Webのアーカイブから大量データが得られやすい情報 なのでこう言った拡張は比較的やりやすい領域 ● 既存の学習モデルに別のモーダルを追加するときの1つのパターン感 15