音楽信号の音高分析に便利な定Q変換 (CQT)。

これまでにいくつか計算アルゴリズムや実装方法の種類を紹介してきました。

おそらく再帰的ダウンサンプリング法が速いと思っていたのですが、条件によっては疎行列計算と変わらないことがあったりと、実環境での処理速度の違いが気になっていました。

そこで、3つのリアルタイム向け定Q変換の Python 実装と、オフライン向けであるLibROSA の定Q変換とSTFTの処理速度を比較してみました

比較環境

比較する手法と条件

冒頭に書いたように、比較手法は以下の５つとします。

1～3はリアルタイム用の実装，4, 5はバッチ処理用の実装となっています*1。

1, 2 の実装は以下になります。

3の実装は以下になります

その他の条件は以下のように設定しました。

良く使われる設定を試してみました。

(2)疎行列計算と(3)ダウンサンプリング法であまり差がでませんでした。

この条件での疎行列計算と比べると、オクターブ分割＋ローパスフィルタリングにそれなりの計算が必要なのかなという印象です。

1オクターブあたり24ビンにしてみました。

(1)スペクトルカーネルで疎行列計算使わないと、信号が90秒なのに処理に250秒近くかかってしまってます。。

この条件では(2)疎行列計算と(3)ダウンサンプリング法で2倍くらい差がでました。

メロディやコード分析の場合，中～高音域のみの分析でよいケースもあります。

そこで，fminを22.5 Hzから110Hzに変え，分析するオクターブ数を8から6に変更した場合の計算量をみてみます。

こちらはどれも10秒以内に終わります。

リアルタイム向けとバッチ処理向け実装で差があまりありません。

リアルタイム／オフライン向け定Q変換のアルゴリズム・実装の処理速度を比較してみました。

計算機、プログラミング言語、処理系で結果は変わると思いますが、Pythonでの定Q変換の処理速度の比較結果は以下のようになりました

リアルタイム
- 再帰的サブサンプリング法は、1オクターブ内の周波数ビン数が多い場合に速かった
- 1オクターブあたりのビン数が12くらいの場合や、低い音高を分析しない場合は、疎行列計算と再帰的サブサンプリング法はあまり差がなかった
- スペクトルカーネルで疎行列計算を使わないのは実用的でない -低い音高を分析しないなら、バッチ処理との速度差は小さい
バッチ処理
- librosa.cqt (librosa.vqt) でOK*2