歌声分析における音源分離の影響の調査

>100 Views

February 05, 26

スライド概要

2025年度卒業研究発表 関遥菜

profile-image

日本大学 文理学部 情報科学科 北原研究室。 「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

歌声分析における 音源分離の影響の調査 北原研究室 関遥菜

2.

背景・目的  歌声はポピュラー音楽において中心的な役割を担う要素であり, ビブラートなどの歌唱表現に着目した研究が行われている  伴奏のない純粋な歌声音源を入手することは容易ではない  近年では, 音源分離技術を用いて既存の楽曲から歌声のみを抽出し, 研究に活用する事例が増えている  音源分離によって得られる歌声の音高が変化するのかは明らかではない  歌声の音高として基本周波数(F0)に着目し, 音源分離前後の変化を分析する  歌唱表現の中でも比較的わかりやすいビブラートについても分析する

3.

処理の流れ 使用データ 音源ミックス 音源分離 MUSDB18 ボーカル + 伴奏 Demucs F0推定 楽曲データ全体の 音高の一致率 pYIN 基本周波数推定 二乗平均平方根誤差 ミックス比率ごと のフレーム差の 割合 基本周波数の グラフ ビブラートの 分析 ビブラートの 深さ ビブラートの 周期

4.

実験方法  単位変換  ビブラートの深さ Hz ⇒ cent ピークと谷を1対1で対応付け 100cent ⇒ 半音 その差を計算, 平均  ビブラートの周期  ビブラート区間の特定 ボーカル(オリジナル)音源 コーラスなし区間を対象 聴覚的判断とF0可視化  極大値(ピーク)・極小値(谷) の抽出 隣接するピークの時間差

5.

分離後の音源 ボーカル音源 伴奏音源 8:1 4:1 2:1 1:1 1:2 1:4 1:8

6.

実験結果 楽曲データ全体の音高の一致率  伴奏の音量が大きい ⇒最小値・最大値および 四分位範囲が増大  ボーカルの音量が大きい ⇒最小値・最大値および 四分位範囲が減少  伴奏音が大きいほど, 歌声に 影響を与えている

7.

実験結果 基本周波数のグラフ  大部分は重なっている  オリジナル音源と分離音源で 違いが増加  105秒付近で分離音源で 外れ値のようなもの  伴奏音が大きいと, 誤検出が増加

8.

実験結果 ビブラートの深さ  ボーカルの音量が大きい ⇒ 誤差が減少  特に2倍の時, 変化が一番大きい  伴奏の音量が大きい ⇒ 誤差が増加  特に4, 8倍の時, 変化が大きい

9.

実験結果 ビブラートの周期  ボーカルの音量が大きい ⇒ 誤差が減少  特に2倍の時, 変化が一番大きい  伴奏の音量が大きい ⇒ 誤差が増加  特に8倍の時, 変化が一番大きい

10.

まとめ  ボーカルの音量が大きい場合  今後の課題 歌声に対する影響は小さい 基本周波数誤差の要因 2倍にするだけでも, 影響が 多様な音楽ジャンル 低減される 異なる音源分離手法間での比較 ビブラート以外の歌唱特徴量  伴奏の音量が大きい場合 歌声に対する影響が大きい ノイズ混入や倍音をF0として 認識している可能性