言語モデルの音楽生成への活用

792 Views

August 07, 23

深層学習音楽生成言語モデル transformer

スライド概要

サークル内のLT会で使用した資料です。
言語モデルを音楽生成に活用するためには音楽をどのように表す必要があるかをまとめています。

Komiya

@misya11p

スライド一覧

主に深層学習に興味があります

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.13MB)

関連スライド

ライトモードvsダークモード～目にいいのはどっち？～

ライトモードダークモード外観モード

Komiya 1.2K

強化学習の基本と簡単な実装

強化学習機械学習

Komiya 264

主成分分析

機械学習主成分分析次元削減

Komiya 249

深層学習の理論

深層学習機械学習ニューラルネットワーク

Komiya >100

GANの簡単な理解から正しい理解まで

深層学習生成モデル gan

Komiya >100

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 278.2K

各ページのテキスト

2023/7/31 BohPJ LT会言語モデルの音楽生成への活用 BohPJ LT会小宮和真 misya11p 武蔵野大学データサイエンス学部 3年 @ds33miya

2023/7/31 BohPJ LT会目次 1. 言語モデル 2. 音楽生成への活用 3. 活用例 1

2023/7/31 BohPJ LT会 1. 言語モデル 2

2023/7/31 BohPJ LT会言語モデル言語モデル単語の並びに確率を割り当てるモデル。まあ、文章生成に多く使われるので、文章生成モデルと捉えてもいい。 ChatGPTなんかが言語モデルの例。 3

2023/7/31 言語モデル BohPJ LT会扱うデータ言語モデルは単語を並べた一次元の配列を扱う。エアコンで喉を痛めたコンピュータにとって、単語というのはただのクラスラベルである。つまり、言語モデルが扱うのはクラスラベルを並べた一次元配列である。これをトークン列と呼ぶことにしよう。 314 15 92 6 トークン列 53 5 4

2023/7/31 BohPJ LT会 2. 音楽生成への活用 5

2023/7/31 BohPJ LT会音楽生成への活用音楽生成への活用言語モデルを音楽生成に応用する場合、音楽をトークン列として表さないといけない。なおここでの音楽とは、以下のような音符の情報を意味する。音そのものに関する議論はここではしない。なんの曲でしょう？このような、いかにも二次元に見えるデータを一次元のトークン列として表すにはどうすれば良いだろうか。 6

2023/7/31 BohPJ LT会音楽生成への活用音楽をトークン列として表す以下の役割を持つトークンを用意すれば、その並びであらゆる音楽を再現できる。 • （指定した高さの）音を鳴らす • （指定した高さの）音を止める • （指定した長さだけ）時間を進める 7

2023/7/31 音楽生成への活用 BohPJ LT会音楽をトークン列として表す例） 71 70 69 68 67 66 65 64 63 62 61 ➀ 60 ⑥ ⑨ ➂ ⑧ ⑤ ② ④ ⑦ ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ 鳴らす: 60 進める: 1 鳴らす: 64 進める: 1 止める: 60 鳴らす: 67 進める: 1 止める: 64 止める: 67 8

10.

2023/7/31 BohPJ LT会音楽生成への活用音楽をトークン列として表すこの手法を使うことで、あらゆる音楽を一次元のトークン列として表せる。現状の音楽生成モデルの多くはこのような手法で音楽を表し、言語モデルによって音楽を生成している。またこれらのトークンの他に、音の強さを表すトークンを設定したり、時間を進めるトークンの単位を短く且つ絶対的な時間（八分音符などではなく、ということ）（ミリ秒など）にすることで、人間的な表現力を獲得できる。 9

11.

2023/7/31 BohPJ LT会 3. 活用例 10

12.

2023/7/31 BohPJ LT会活用例 Music Transformer1 みんな大好きTransformerをほぼそのまま音楽生成に活用したもの。初めの音符を数個入力するとつづきの音楽が生成される。使うのはdecoderのみ。 self-attentionの部分が音楽用に少し変わっている。なんか足されてるー [1] A. Huang, et al., “Music Transformer: Generating music with long-term structure”, ICLR, 2019. 11

13.

2023/7/31 BohPJ LT会活用例 Compound Word Transformer1 Music Transformerの発展。ヘッドを分岐させ、出力するトークンを種類によって分ける。 • トークンの種類（例） • 音符を表すもの • 時間を表すもの • 音の強さを表すもの • 右図 • a: 元のデータ。一次元配列。 • b: 役割ごとに分けたもの。 • c: パディングしてサイズを揃えたもの。 [1] W. Y. Hsiao, et al., “Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs”, AAAI, 2021. 12

14.

2023/7/31 BohPJ LT会活用例 Pop2Piano1 Transformerベースのピアノカバー生成モデル。音源から得たメルスペクトログラムをencoderで処理し、decoderで音符列を生成する。 [1] J. Choi, K. Lee, “Pop2Piano : Pop Audio-based Piano Cover Generation”, 2022, arXiv:2211.00895. 13

15.

2023/7/31 BohPJ LT会活用例 MuseMorphose1 TransformerベースのVAE。 VAEなので潜在空間を利用したデータの操作が得意。音符量の調整などができる。 [1] S. L. Wu, et al., f, “MuseMorphose: Full-Song and Fine-Grained Piano Music Style Transfer with One Transformer VAE”, TASLP, 2022. 14

16.

BohPJ LT会オワリおつ