音楽を題材に情報科学を研究する

9.2K Views

April 15, 24

スライド概要

滋賀大学第157回データサイエンスセミナー

Kitahara Lab

@kthrlab

スライド一覧

日本大学文理学部情報科学科北原研究室。「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

即興演奏システム JamSketch の社会応用の可能性

Kitahara Lab 427

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 315.6K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 279.5K

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 167.6K

AR.jsとA-Frameではじめるお手軽WebAR/VR

ar_fukkuoka webar webvr aframevr arjs

Takashi Yoshinaga 149.8K

ウェーブレット変換の基礎と応用事例：連続ウェーブレット変換を中心に

Ryosuke Tachibana 橘亮輔 142.9K

各ページのテキスト

滋賀大学第157回データサイエンスセミナー音楽を題材に情報科学を研究する日本大学文理学部情報科学科北原鉄朗 Twitter: @tetsurokitahara

自己紹介 ● 札幌生まれ。現在、45歳 ● 小～中学時代： – ● – 情報科学科に入学し、プログラミングを本格的に学ぶ – バンド活動も本格的に行う – 4年生から、音楽情報処理の研究を家にあったPCをいじる（当時、PCをいじる≒プログラミング） – 大学時代：進学のため柏に引っ越す某音楽教室でピアノや作曲を学ぶ始める（中学からはDTMも） ● 高校時代： – バンド活動を始める – プログラミングも適当に手を出す ● ● 大学院時代：京都の大学院に進学 – 音楽情報処理の研究を本格展開 – バンド活動はほとんど休止その後：関西の大学の研究員を経て、現在、東京在住

北原研究室 ● 2010年度に日本大学文理学部に設立 ● 合言葉：「Technology Makes Music More Fun」 ● 例年のメンバー構成： – 教員： 1名、臨時職員：数名 – M2： 0～2名、 M1： 0～2名 – B4： 6～8名、 B3： 6～8名 ● 学生自身の問題意識に従って、教員と2人3脚で研究テーマを設定 ● 積極的な情報発信： – 対外発表の義務化、卒業論文の公開、YouTube Liveでの配信、 – Zennでの技術系記事の執筆

本研究室で行ってきた研究テーマ（主なもの）音楽を聴く人を助けたい複数人が同じBGMを聴く場面の楽曲推薦歌う人を助けたいカラオケを盛り上げるスマートタンバリンハモリ練習支援音痴な人の分析 HCI 演奏する人を助けたい MIDIギター精度改善ピアノ初見支援演奏時の筋活動分析即興演奏支援作曲する人を助けたい旋律概形による作曲ループシーケンサマッシュアップ支援イコライザー支援土台となる技術音響信号処理四声体和声生成ベースライン生成ベーシストの特徴分析 etc 機械学習

本日のアジェンダ研究の話 ● 研究全体をつらぬく動機 ● 研究事例1：自動和声付け ● ● 研究事例2：即興演奏支援研究事例3：ループシーケンサ教育の話 ● 音楽を題材に、情報科学／情報工学を教育する ● 研究室（ゼミ）運営の実態 ● 卒業研究の事例

研究の話（自動作編曲、作曲支援）

研究の動機コンピュータの支援を受けながら、非専門家が音楽創作・即興演奏を楽しめる環境を作りたい熟練者ゆくゆくは… 創造性高いレベルの創造性セッション対等な立場で（従来：高い方が熟達者低い方に合わせる）コンピュータが支援非熟達者熟練者非熟練者コンピュータによる支援

技術的課題入力情報・入力UI 楽曲自動生成「こんな曲」というあいまいなイメージしかないユーザに、あいまいな入力データからどのように音楽的に妥当な楽曲・メロディを生成するかどんなデータをどんなUIで入力させるか

本講演で紹介する研究事例 ● 四声体和声の生成 ● 旋律概形に基づく即興演奏支援システム「JamSketch」 ● 盛り上がり度に基づくループシーケンサ

10.

【事例1-1】 [S. Suzuki & T. Kitahara, JNMR, 2014] Bayesian Netを使った四声体和声生成 Model 課題経時的妥当性同時的妥当性 Learning-based - Neural net (Hild ‘91) - HMM (Allen, ‘05) - Weighted finite transducer (Buys ‘12) Non-learning-based - Expert system (Ebcioglu ‘90) - Constraint satisfaction problem (Pachet ‘98) - GA (Phon, ‘99) の両方を考慮

11.

コード（和音）ノード従来研究の多くは、和音名か和声機能を表すノードを導入 C コードノードの問題点 Am G E C A E C ヴォイシングを区別するとすると、 C6 C6 on G C Am Am7 取り得る値が多すぎるヴォイシングを区別しないとすると、 C Am あいまいすぎるコードノードを使わない方がいいのでは?

12.

与えられるか決定済みモデル

13.

データテストデータ学習データ ● 254個の讃美歌のメロディ ● ハ長調に移調 ● 和声学の教科書から抜粋した 32個のメロディ

14.

生成例 ▶

15.

【事例1-2】 LSTMを用いた四声体和声生成 [T. Yamada, T. Kitahara, H. Arie & T. Ogata, CMMR 2017] Sop Alto Ten Bass Time steps

16.

【事例2】旋律概形に基づく即興演奏支援即興演奏がなぜ難しいのか [T. Kitahara, S. Giraldo & R. Ramirez, CMMR 2017] [T. Kitahara & A. Yonamine, ACMMMAsia 2023] メロディのアイディア音楽知識（和声、音階など）具体的な音符列即興演奏では、こののプロセスを楽曲進行中に行う。 ● 伴奏と協和する音を選ぶ ● メロディの動きにメリハリをつける実際に演奏非専門家でも、即興演奏「もどき」を楽しめるようにしたいなどなど

17.

即興演奏支援システム「JamSketch」ユーザが描画: 旋律概形直感的! 簡単に描ける! システムが生成: メロディ

18.

学習の仕組み Weimar Jazz DB ニューラルネットで実現（CNN）これを「旋律概形」とみなすブルースのアドリブソロの採譜データ変換平滑化

19.

なぜCNNなのか ● 実装が楽 ● メロディの持つ拍節構造を自然に表せる畳み込み畳み込み

20.

入力と出力コード time 出力メロディ（音符）旋律概形 Input 入力 time

21.

メロディ用にどのようにフィルタを設計するか音楽（ピアノロール）は、シフト不変ではない音高軸時間軸ハ長調では滅多に現れない異なる音名には、異なる役割があるハ長調では最も重要な音名強拍弱拍強拍と弱拍では、音名出現の傾向が異なる

22.

実際のフィルタ設計フィルタサイズ音高方向のシフトを防ぐ conv. フィルタサイズ conv. pitch Melodic outline ch ch Chord progression time 強拍と弱拍が入れ替わるのを防ぐ deconv. deconv. ch pitch time time Pitch (cont) Pitch time time

23.

データセット入力データ出力データ右のメロディの音高系列を平滑化して旋律概形を作成 Weimar Jazz Database から半分を学習に、残りをテストに使用ブルース96曲

24.

デモ Colabでのデモ JamSketchのデモ（実演） https://bit.ly/3zB2Tja コードはGitHubに（でもちょっと古い） Groovyにて実装 Folder

25.

【事例3】盛り上がり度に基づくループシーケンサ [T. Kitahara, K. Iijima, M. Okada, Y. Yamashita & A. Tsuruoka 2015] ループシーケンサとは Sony Creative Software: ACID Pro 7 ● 短い音素材をつなぎ重ねて曲作り ● テクノ系の作曲には最適 ● 音楽に関する専門知識が不要 ● Audio-based なので高品質

26.

ループシーケンサの問題点と解決策問題点音素材が多すぎる着眼点テクノ音楽で大事なのは、盛り上がりの変化解決策盛り上がりの時間変化を描画させるその盛り上がりを実現する音素材を自動選択入力された盛り上がり度が高いほど… 5 音素材を多く挿入 1 盛り上がり度の高い素材を選択

27.

隠れマルコフモデル（HMM）による定式化盛り上がり度曲線＝観測信号観測信号に対して最尤の状態遷移を推定各パートの音素材・音素材を入れるかどうか・入れるなら何を入れるかに分けて考える状態（0 or 1）ランダムに選ぶ（ユーザ適応を検討中）

28.

各音素材に対する盛り上がり度の計算 Basic idea 盛り上がり度が高い 1) 各時刻・各周波数の振幅を閾値処理 Drums Synth 盛り上がり度が低い Drums 2) 閾値を超えている時刻・周波数の割合を計算 Synth

29.

教育の話（音楽を題材に、情報科学／情報工学を教育する）話を簡単にするため、大学院進学しない学生に対する教育に限定する

30.

音楽を題材に情報科学／情報工学を教育するどんな人材を育てたいのか世の中の問題を、情報科学的／情報工学的手法により解決できる能力を有する人材情報科学的／情報工学的な問題解決能力とは ● プログラミング問題や解法の客観的な記述 ● 数理的な問題理解（定式化）最大化や最小化などに落とし込む（本質を取り出す力）

31.

なぜ音楽なのか ● ● 学生にとって身近な娯楽 – （鑑賞も含めれば）誰にも音楽経験がある – 自分なりの経験をもとに研究テーマを見つけやすい豊富なデータ – ● 音楽CD、楽譜などが大量に流通（ただし、machine-readableとは限らない）計算機処理との相性 – 楽譜という離散的な情報表現が確立されている

32.

どのように卒業研究を進めていくのか 4月研究テーマ検討本人が持ってきた研究テーマ案を揉むインタラクションで発表 Aさんの研究テーマに関して2人で発表 2人1組でシステム開発今度はBさんの研究テーマを進める学会（ECなど）で発表 Bさんの研究テーマに関して2人で発表 7月 3 プログラミング予備検討データ処理など始めやすいところから始める年生 11月 2人1組でシステム開発 AさんとBさんが組になって、 Aさんの研究テーマを進める 3月 4 8月年生 2月 3月各自で開発・評価 1人1人で研究を進める卒研発表・学会発表情報処理学会全国大会など

33.

研究テーマを決める際のポリシー ● 学生がアイディアを持ってくることを原則とする – ● 各学生の趣味・特技などを活かした研究テーマを探る – ● 楽器演奏、スポーツ、その他ある程度、ニッチなところを狙う – ● 「サラリーマン的研究」ではなく「自分ドリブン研究」を Googleが本気を出したら我々は勝てない卒業後にB～C級の国際会議に通せるのを目標とする – 北原が投稿して北原が発表。研究室としてpublicationを確保

34.

【事例1】複数ユーザが同一楽曲を聴くための選曲・再生システム（鈴木、2017修了） ISMIR2017 採録複数の人が同じ場所で同じBGMを聴く環境で、研究の目的できるだけ多くの人が気に入るBGMを自動選曲したいパーティードライブ友達と勉強

35.

技術的課題その場にいる人たちの音楽的好みをどう取得するか仮定各自のスマートフォンに好きな曲のmp3を保存（面倒な操作などを求めずに） [仮定1] 再生頻度の高い曲は、好みである可能性が高い [仮定2] 好みの曲に似た曲は、好みである可能性が高いユーザ2 【よく聴く曲】楽曲A ユーザ1 楽曲D 【よく聴く曲】楽曲E 類似楽曲A : 楽曲B 楽曲C : ユーザ3 Bluetooth通信でスマートフォン同士がやりとり【よく聴く曲】楽曲A 楽曲D 楽曲F : Good! Good!?

36.

処理手順 1. 各自が本アプリを立ち上げる（1人は親機モードで） 2. 親機が他の端末から所持楽曲の情報を収集 3. 各ユーザの各楽曲に対する「期待度」を計算 • 再生頻度高⇒ 期待度高 • 高期待度曲に類似⇒期待度高 4. 期待度の合計が高い順に再生 https://www.youtube.com/watch?v=yb4Tc2EKBAQ

https://www.youtube.com/watch?v=yb4Tc2EKBAQ

37.

【事例2】パターン認識を用いた特定ベーシストの CSMC2017 特徴の分析（松浦、2017卒）採録研究の目的あるベーシストの特徴の変遷を定量的に分析したい取り上げるベーシスト Flea (Red Hot Chilli Peppers) 1999年（John復帰）を境に特徴が変わったと言われている「フリーのベース・プレイは、それまでのスラップ一辺倒気味のプレイからよりファンクなアプローチになり、無駄をそぎ落とした2フィンガー・ピッキングを主軸に(中略)歌のバックではよりシンプルでストレートに」「バンドの変化にともない、フリーのベース・プレイもかなり変化＝深化しており、シンプルに弾くべき楽曲はルート弾きを主に徹底してシンプルに弾いている」 Year 1989 Year 1999 （『ベース・マガジン』 2007年6月号） Ba. Ba. 『Higher Ground』『Parallel Universe』

38.

課題 ① 1999年に特徴が変わったことをどう示すか ② 1999年前後の変化（よりシンプル、より高音…）をどう示すかアプローチパターン認識的アプローチバンドスコアからベースパートのMIDIデータを作成し、 ① 以前・以後識別 1999 以前以後高精度 ② 特徴量選択以前 2002 以後低精度 1999年の方が特徴変化が顕著 1999 以前以後特徴量A、B、C を利用高精度特徴量、A、B、Cに変化の秘密が！

39.

結果 ① (10-fold cross validation) J48 IBk Bayes MLP Net 1999 76% 78% 73% 84% 2002 61% 54% 61% 63% 2006 65% 55% 62% 50% 1999年以前・以後で分けたときが一番高精度たしかに1999年に特徴が変化 ② ● 楽曲全体の音高の平均値隣接音の音高差の絶対値が0の割合 ● 隣接音の音高差の絶対値が3の回数 ● 全使用音高における頻出音高上位 5位までが占める割合 ● この4つの特徴量だけで82%の識別率音の高さ、シンプルさが変化のキーに

40.

【事例3】グラフィックイコライザーによる音色操作と印象の関係（増田、2019卒）研究の「歌ってみた」動画作成で、目的歌唱のイコライジングをもっと直感的にやりたい（Steinbergの webサイトより） WIMP2019 採録

41.

印象語（例：明るさ +2）でイコライザー操作を目標技術的イコライザーの設定と聴いたときの印象の関係の定式化課題解決策線形回帰で、印象とイコライザーの設定の関係を近似（目的変数：印象語評価、説明変数：イコライザー設定）線形回帰で近似： y=Bx ...... Bright- Warmness ness y1 y2 ユーザが指定自動逆推定： 500 Hz 2 kHz 8 kHz 推定 x1 x2 x3 x = B-1 y （実際には一般化逆行列）

42.

Low Mid-lo Mid-hi High Low Mid-lo Mid-hi High 0 0 0 0 0 0 0 + > 0 0 + + > > 0 0 + 0 > + 0 0 > + 0 + 0 0 + + + 0 > > 0 0 + 0 + 0 0 0 > 0 0 - + > 0 0 0 - > 0 - 0 + > 0 0 - 0 > - 0 0 + > 0 - 0 0 > 0 0 + - > - 0 0 0 > 0 + 0 - > >

43.

主観評価の実施線形回帰

44.

Verbally controllable equalizerのプロトタイプ Direct controller Verbal controller 相互変換可能

45.

【事例4】アニメの主題歌による類似アニメ検索の検討（本間、2019卒） MIPR2021 採録研究の目的類似アニメ検索を類似楽曲検索技術で実現する着眼点似ているアニメは、主題歌も似ているのではないか試したこと ● 主題歌からMFCC抽出→ベクトル量子化 ● Earth Mover's Distanceが小さい順に出力 ● アニメに付与されたタグの共通性を評価データ出典

46.

実行例コードギアス反逆のルルーシュ（主題歌：COLORS） [SF/Fantasy] [Robot/Mech.] [Bloom of Youth/Drama] ©SUNRISE/PROJECT GEASS Theme song: ©FLOW Demo

47.

まとめ教育の話研究の話目標：非専門家がなぜ音楽なのか ● 研究室（ゼミ）運営の実態 ● 音楽創作を楽しめる環境 ● 盛り上がり度に基づくループシーケンサ旋律概形による即興演奏支援卒業研究の事例 – 選曲 – ベーシストの分析 – イコライザー – アニメなどなど一緒に研究してくれる仲間、大募集!!!