こんにちは。

前回、音声解析の準備その1的な感じでとりあえずスペクトログラムの可視化までをライブラリlibrosaで進めました。フーリエ変換など一部の解説は行ったのですが、今回はメルなどその他の知識の解説をしつつ、別の音声データを用いてPythonをいじってみました。

簡易的なまとめ

  • メルとホンは重要。
絶対的な音圧ではなく、体感的な音圧をホンという。同様に体感的な音の高さをメルという。
  • スペクトログラムよりメルスペクトログラムを使う。
上記の通り、人間の聴覚を考慮して作られるから。
  • 窓関数は周期性を生成する
フーリエ変換の仮定として入力の音声信号に周期性があります。しかし、一般的に周期性のあるデータはおそらくない?ので周期性を持たせる必要があります。そこで、窓関数を使います。ハミングや、ハニングなどが有名です。
  • 等ラウドネス曲線
音圧と周波数の関係、比例ではないということが重要。
  • ケプストラムも大切
スペクトル微細構造とスペクトル包絡構造に対応する各成分を容易に見分けることができる。すなはち、音源特性、声道特性それぞれについて分析が可能。

コード

例えば応用になると、メルスペクトログラムを使って音楽分類や声からの性別分類などするんですかね。個人的にはリアルタイムで音声を変換とかやってみたいですね。
これらについても実装が非常に難しい、、、特にメル以降はちょっとまだできない、、、申し訳ない。