GNNを用いたジャズ楽曲に対する非和声音分析

>100 Views

February 05, 26

スライド概要

2025年度卒業研究発表 冨士田玲之

profile-image

日本大学 文理学部 情報科学科 北原研究室。 「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

GNNを用いたジャズ楽曲 に対する非和声音分析 北原研 冨士田玲之

2.

背景 • 楽曲を理論的に解釈するためには,和声構造や非和声音の分析 が重要 • 分析には専門的知識が必要なため初学者にとっては困難な場合 が多い • 楽曲の自動分析の一環として非和声音識別をおこなう

3.

非和声音識別とは • 非和声音:その時点の和声を構成する音以外で現れる音符の こと 非和声音の具体例

4.

非和声音識別の何が困難か • • • • 単音では判定できない その瞬間の和声構成音 と一致しているか 前後の流れに依存する ため同一の音符でも文 脈によっては和声・非 和声が異なる ジャズだとテンション ノートや装飾音が多く 和声音と非和声音の境 目が曖昧

5.

従来研究 • 非和声音の自動分析に関する研究が行われてきた • 上原ら(Vol.2025-MUS-142, No.4, pp.1--8, 2025.)は、楽曲をグラフ構造として表現し、 Graph Neural Network(GNN)を用いて非和声音を識別する手法 を提案した • この手法はクラシック楽曲データセットにおいて高い識別精度 を示している

6.

課題 • 上原らの手法はクラシック楽曲を対象に検証されている • 一方で、ジャズ楽曲では非和声音の用いられ方がクラシックと 大きく異なるためジャズ楽曲に対しても適用可能であるかは明 らかでない

7.

実験目的 • 目的 • 上原らが提案した非和声音識別GNNがジャズにおいても機能するのか を検証する

8.

実験方法 • 仕様モデル • 上原らが提案したモデルを使用 • データセット • 大規模MIDIデータセットLMD(Lakh MIDI Dataset)からジャズ楽曲100 曲のMIDIファイル • LMDに対応するキャプションデータセットMIDIcapsからコード進行と コードの発音開始時間データを抽出したjsonファイル • データセットに含まれる和声音(62.35%)非和声音(37.65%)

9.

楽曲例

10.

グラフ設計 • エッジ • • • • 旋律間エッジ 旋律内エッジ 自己エッジ ノード • • MIDIノート番号 ピッチクラス 上原 由衣:``グラフニューラルネットワークによるオルガン小曲集の非和声音認識'',情報 処理学会研究報告 音楽情報科学 (MUS),Vol.2025-MUS-142, No.4, pp.1--8, 2025.

11.

実験方法 • 比較手法 • Graph SAGEとGATv2の2種類のアーキテクチャの比較 • MIDIノート番号、Class Pitchの2種類のアブレーションスタディでの 比較 • 評価は, 5分割クロスバリデーションおよび3種類のランダムシード (123, 456, 789),を用いた計15回の実験結果の平均値 • 評価指標 • Accuracy • Precision • Recall • F1-score

12.

実験結果(モデル別比較) モデル Accuracy Precision Recall F1-score GraphSAGE 0.719 0.725 0.639 0.644 0.585 0.608 0.611 0.625 GATv2 ● GATv2は全指標でGraphSAGEを上回る ● 特にRecallとF1スコアで差があるが大きな差はない

13.

実験結果(アブレーションスタディ) MIDIノート番号、ピッチクラスの2つの特徴量の依存度を比較す る アブレーショ モデル ン GraphSAGE BASE GraphSAGE no_midi GraphSAGE no_pc GATv2 BASE GATv2 no_midi GATv2 no_pc Accuracy 0.719 0.716 0.703 0.725 0.718 0.715 Precision 0.639 0.633 0.621 0.644 0.629 0.631 Recall 0.585 0.59 0.545 0.608 0.617 0.592 F1-score 0.611 0.611 0.579 0.625 0.623 0.610

14.

まとめ • • • • 既存のGNN非和声音識別モデルがジャズ楽曲においても適応可能である か検証した GATv2がGraphSAGEを上回るスコアを示したが大きな違いはなかった アブレーション結果によりピッチクラス情報がMIDIノート番号情報より も非和声音識別において有用であることが示された ジャズ楽曲においても、GNN非和声音識別モデルは一定の性能で動作す ることが分かった 今後の課題 • ジャズ固有の特徴を考慮したラベル設計の検討 • グラフ設計の見直しによる精度向上