サビ検出アルゴリズムの方針・実装

邦楽におけるサビは、楽曲で最も盛り上がる区間です。

また、1番、2番というように曲の中で何度も繰り返されます。

従って、以下のような仮説を立てることができます。

曲の冒頭や最後に存在する可能性が高い
音の短時間エネルギーが最も高い値となる
音色が煌びやかになる

これら３つの仮説に基づいてサビ検出の実装を行います。

仮説2, 3については、音の短時間のエネルギーを表すRMSと、音色の煌びやかさを表すスペクトル重心を使います。

それぞれ、Pythonの音楽分析モジュールであるLibROSA では、librosa.feature.rms(), librosa.feature.spectral_centroid()を使うことで簡単に算出することができます。

RMS, スペクトル重心の時系列データをそれぞれ正規化して足し合わすことで、サビらしさ特徴量時系列データとして扱います。

以上より、このサビらしさの特徴量時系列データ*1が最大値を取るところは、音のエネルギーが大きく煌びやかなのでサビである可能性が高いと考えられます。

ただし、仮説1を利用し、サビらしさの特徴量時系列データの先頭および末尾からいくつかのデータを除外することで検出精度を上げることができます。

以上を実装すると以下のようなコードになります。

filepath = "/path/to/audiofile.ext"
sr = 44100

# オーディオファイルを信号データとして読み込み
# 今回はモノラル信号（中央定位成分）を利用
y, sr = librosa.load(filepath, sr=sr, mono=True)

# 特徴量算出用のパラメタ
frame_length = 65536 # 特徴量を１つ算出するのに使うサンプル数
hop_length   = 16384 # 何サンプルずらして特徴量を算出するかを決める変数

# RMS：短時間ごとのエネルギーの大きさを算出
rms   = librosa.feature.rms(y=y, frame_length=frame_length, hop_length=hop_length)[0]
rms   /= np.max(rms) # [0.0. 1.0]に正規化

# スペクトル重心：短時間ごとの音色の煌びやかさを算出
sc    = librosa.feature.spectral_centroid(y=y, n_fft=frame_length, hop_length=hop_length)[0]
sc    /= np.max(sc) # [0.0. 1.0]に正規化

# 最大値探索で無視する,先頭と末尾のデータ数を指定
n_ignore = 10 

# サビらしさ特徴量時系列データ sc+rms より、
# 最もサビらしいインデックスを最大値探索で算出
# 念のため、2, 3番目に大きい値をとるインデックスも算出する
indices = np.argsort((sc+rms)[n_ignore:-n_ignore])[::-1] + n_ignore
# 最大値のみであれば、np.max((sc+rms)[n_ignore:-n_ignore]) でよい

# 特徴量時系列データのインデックスと時間（秒）の対応関係
# 今回は、rmsとscはhop_lengthが同じなので以下でよい
times = np.floor(librosa.times_like(sc, hop_length=hop_length, sr=sr))

# 推定サビ時刻（秒）を算出
chorus_estimated_time = times[indices[0]]