Wizard Notes

音楽信号解析の技術録、音楽のレビューおよび分析、作曲活動に関する雑記です

Python + LibROSAでクロマ特徴(クロマグラム)を使って和音推定:(1) テンプレートマッチング

この記事をシェアする

音楽の三大要素、メロディ・ハーモニー・リズムの内、ハーモニーの根幹を担っているのが和音です。

おそらく、楽器を演奏したり、曲の耳コピをしたことがある人は、一度は計算機で和音(進行)を自動で分析できたらいいな、と思ったことがあるはずです。

一般的な楽曲での和音の正確な推定は難しく、音楽情報検索・音楽信号分析の分野でも長く研究されている分野です。ただ、論文は見つかりますが、エンジニア向けの簡単な資料・参考文献はそう多くないと思います。

この記事では、和音推定のベーシックな方法であるテンプレートマッチング法Python実装とともに紹介します。

和音推定アルゴリズムの設計

設計方針

f:id:Kurene:20191108152213p:plain
和音推定の流れ

和音推定アルゴリズムの処理の流れは、以下のようになります。

  1. 和音テンプレートを作る
  2. クロマグラム (各音名の強度)を算出
  3. 和音テンプレートと、クロマグラムのテンプレートマッチング
  4. マッチング結果(マッチングスコア)から、和音を推定

単にテンプレートマッチングだけでは和音は定まらず、マッチング結果を使って和音を推定する処理が必要となります。

1. 和音テンプレートの作成

f:id:Kurene:20191108153509p:plain

クロマグラムとの内積を取る前提で、和音テンプレートの作成します。

和音テンプレート(行列)は、推定したい和音候補(e.g. [C, C#, ..., Cm, C#m, ...])に対して、和音の構成要素となる音名に重みを設定することで作成します。シンプルな設定だと、図のようにバイナリな行列が使われます。一方で、和音の非構成音名には負の値を入れたり、各音名で値を変えたりしてチューニングすることができます。

また、今回は三和音ですが、もちろん四和音やそれ以上も可能です*1

template_major = np.array([1.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0])
template_minor = np.array([1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0])
    
templates = np.array(  [np.roll(template_major, k) for k in range(0, 12)] \
                     + [np.roll(template_minor, k) for k in range(0, 12)]  )

2. クロマグラム (各音名の強度)を算出

定Q変換などを使って、クロマグラム(PCP: ピッチクラスプロファイル)を算出します。 詳細は、以下の記事をご参照ください。

www.wizard-notes.com

LibROSAを使うと、以下のように数行でクロマグラムを算出できます。

import librosa

audiofilepath = ...
n_bins = 84
hop_length = 512

y, sr = librosa.load(audiofilepath, sr=16000, mono=True)
pitch = np.abs(librosa.cqt(y=y, sr=sr, hop_length=hop_length, n_bins=n_bins))
chroma = librosa.feature.chroma_cqt(C=pitch)

3. 和音テンプレートと、クロマグラムのテンプレートマッチング

先ほど作った和音テンプレート templates と、クロマグラム chroma内積を取ることで、 各和音らしさを示すマッチングスコアを計算します。

chord_matching_score = np.dot(templates, chroma)

4. マッチング結果(マッチングスコア)から、和音を推定

先ほどの和音マッチングスコア chord_matching_score から、和音を推定します。

もっとも単純な方法だと、最も和音マッチングスコアが高い和音を和音推定値とする手法が考えられます。

    chord_binary = np.zeros(chord_matching_score.shape)
    for k in range(0, n_t):
        idx = np.argmax(chord_matching_score[:,k])
        chord_binary[idx,k] = 1.0

実装と楽曲への適用

使用楽曲1:パッヘルベルのカノン(ニ長調

以下のサイトの音源を使わせて頂きました。

パッヘルベル:カノン ニ長調: クラシック名曲サウンドライブラリー

正解データとしては、上記音源と(ほぼ)同じタイミングで和音構成音のサイン波を鳴らした音源を使っています。

クロマグラム

f:id:Kurene:20191108173226p:plain

和音テンプレートマッチングスコア

f:id:Kurene:20191108173309p:plain

和音推定結果

f:id:Kurene:20191108173148p:plain

使用楽曲2:J.S.バッハメヌエット ト長調

楽曲は、J.S.バッハメヌエット ト長調の前半部を使っています。 以下のサイトの音源を使わせて頂きました。

J.S.バッハ:メヌエット ト長調 BWV.Anh.114、ト短調 BWV.Anh.115: クラシック名曲サウンドライブラリー

正解データとしては、上記音源と(ほぼ)同じタイミングで和音構成音のサイン波を鳴らした音源を使っています。

クロマグラム

f:id:Kurene:20191108165816p:plain

和音テンプレートマッチングスコア

f:id:Kurene:20191108165835p:plain

和音推定結果

f:id:Kurene:20191108165851p:plain

チューニングすべき箇所

  • クロマグラム
    • 調波打楽器音分離で得た調波成分からクロマグラムを抽出&
    • 時間方向スムージング
      • 影響は大きい
    • スパース化
      • 誤検出を防ぐうえで重要
      • 値の小さい音名は0にする
  • テンプレート
    • 重みの設定方法
      • {0, 1} or {-1, 0, 1}, or 実数値
      • rootに対しての役割
        • 短/長3度は1.0, 5度は 2.0, ...
    • 和音の組み合わせ
      • セブンスやテンションの扱い
      • 組み合わせを増やすと推定誤りは増える
  • コード推定
    • コード進行に基づく制約
      • あり得ないと考えられるコード進行になっていたら再推定する
    • 調性に基づく制約
    • 時間方向の連続性に基づく制約
      • 和音推定値が非連続な場合は推定誤りとし、再推定する
    • 出現頻度に基づく制約
      • (その楽曲・音楽ジャンル・調性で)出現頻度の低い和音は推定誤りとし、再推定する

重みの設定は、音楽ジャンル・使用楽器によってチューニングが顕著に変わると思います。

それも踏まえて、楽曲の調性と音楽ジャンルに応じてチューニングするのがよいかと思います。

また、通常コードチェンジは頻繫に行われるものではないため、拍の頭など特定のタイミングでの推定値のみ採用するのも有効だと思います。

まとめ

和音推定のベーシックな方法であるテンプレートマッチング法を実装しました。

今回試した2つの楽曲では、どちらもなんとなく推定はできていますが、推定誤りが目立つ結果となりました。 特に2曲目はピアノの独奏であるため、旋律に引っ張られてしまっています。

なるべく滑らかで正しい和音推定値を得るために、事前学習をしたり、コード進行(遷移)に仮定を設けた手法が提案されています。 今後、その手法を紹介をできたらいいなと思います

参考文献

FUJISHIMA, Takuya. Real-time chord recognition of musical sound: A system using common lisp music. Proc. ICMC, Oct. 1999, 1999, 464-467.

付録

和音テンプレート

f:id:Kurene:20191108160532p:plain

ディミニッシュ(減三和音)の推定

減三和音のテンプレートマッチングもやってみたので、その結果を掲載します。 正解用データのほうは、ドミナント7のところ(D7)でディミニッシュも検出されています。

f:id:Kurene:20191108163628p:plain

Pythonスクリプト

*1:五和音以上になると和音推定というよりもスケール推定になると思います。