更新日 2010年2月13日

「恋音」による「恋声」のピッチ・フォルマント変換の観察


 「恋声」のTD-PSOLAでどのようにピッチとフォルマントが変換されるかを、「恋音」を利用してスペクトログラムで見てみましょう。

図1 初音ミクが歌う「きよしこの夜」(表示:-62dB〜-40dB) WAVファイル

図2 「恋声」で「W→M」(Pitch -12、Formant -5)したもの(表示:-62dB〜-40dB) WAVファイル

 ピッチ(基本周波数)はスペクトログラムの一番下の線で決定されます。最初の音「KI」は、図1ではF4(349Hz)、図2ではF3(174.5Hz)で、図2では図1に比べて1オクターブ下(半音単位で-12、周波数では50%)になっているのが分かります。
 最初の音「KI」のフォルマントを見てみると、図1ではA7(3520Hz)だったフォルマント周波数が図2ではE7(2637Hz)になっています。これは、半音単位で-5、周波数では75%の値で、「恋声」の「W→M」の設定値に一致しています。(フォルマント周波数の正確な定義は下の項を参照してください。)

 

  図3     Original           W→M (Pitch -12, Formant-5)
  

 次に、母音のフォルマントを見てみましょう。フォルマントとは共鳴周波数のことで、口の形や声道の形状で決まります。つまり、ピッチには依存しません。でも、「恋声」のスペクトログラムで見れるのはピッチ(基本周波数)の整数倍の周波数のみです。だから、図1からは直接的には正しいフォルマント周波数を知ることはできません。そこで、まず正解をみてみましょう。図4はPraatというフリーソフトを用いて初音ミクの歌を解析した結果です。水色がピッチで単位は右側の周波数です。赤は検出したフォルマント周波数です。単位は左側の周波数です。周波数軸はPraatではHz単位のリニア軸で、「恋音」では音階なのでLOGを取っていることに注意してください。(音階は12*log2(f/f0)で計算される。)

図4 Praatによる解析結果

 図5は日本語の母音のフォルマントの分布を示したものです。横軸は第1フォルマントの周波数、縦軸は第2フォルマントの周波数です。図4のPraatの解析結果だけからは、第1フォルマント、第2フォルマントを正しく識別できないので、図5と見比べながら探していきましょう。

 「い」の第1フォルマントは200〜400Hzの範囲にあるはずだから、一番下の赤のラインで372Hz(F#4)です。第2フォルマントは2500〜3200Hzの範囲だから、「KI」の発音では下から3番目、「SHI」の発音では下から2番目の赤のラインで、「KI」では3549Hz(A7)、「SHI」では3263Hz(G7)です。
 この結果から「恋音」のスペクトログラムを見てみると、基本周波数の349Hz(F4)付近が第1フォルマントです。そして、3520Hz(A7)が第2フォルマントです。

  同じようにして「お」をみていくと、Praatで第1フォルマントは一番下の赤のラインで636Hz(E5)、第2フォルマントは下から3番目の赤のラインで1392Hz(F6)です。「恋音」では基本周波数の2倍音、4倍音がそれぞれ第1フォルマント, 第2フォルマントに対応していそうです。(4倍音の方が第2フォルマント周波数に近いのに、3倍音の方が明るく見えるのはなぜだろう? Praatの下から3番目を第2フォルマントとしたが、下から2番目1045Hz(C6)を第2フォルマントとすると、3倍音に一致して「恋音」の結果に一致する。でも、「お」の第2フォルマントが1045Hzでは右の図からは女声としては低すぎる・・・ けど、Vocaloidだから第2フォルマントが1045Hzが正解かもしれない。)

 

     図5 日本語母音のフォルマント
 

戻る