スペクトルから倍音が観測されるか、音色が観測されるかについて、以下のような信号処理的時間窓のモデルが考えられる。
変化する信号を観測する場合、信号の一部を次々と切り出す。時間窓とは、切り出すその時間枠のことだ。時間窓の長短によって、倍音が観測しやすいか、音色の基になるスペクトル包絡が観測しやすいかが決まる[1]。時間窓の長さによって、周波数分解能が異なるからだ。
すなわち、時間窓を長くすると周波数分解能が良くなり、図1のように、倍音が観察される。図1の櫛の歯のようなものが倍音だ。
逆に、時間窓を短くすると、図2に示すように周波数分解能が悪くなり、スペクトル包絡が現れ、音色が分かりやすくなる。図2の曲線を図1に重ねると、図3のようになる。図2がスペクトル包絡であることがよく分かる。
通常は時間窓を短くし、スペクトルの特徴すなわち音色が分かりやすくなるようにする。倍音を聞こうとするときは、時間窓を長くし、周波数分解能をよくする。
意識的にせよ無意識にせよ、時間窓の長短を制御すると、通常は音色が聞こえ、必要なときには倍音が聞こえるようになる。聴覚の心理において、この時間窓の制御のようなことが、自動的に行われているのではないかと考えられる。
以上のことを分かりやすく大げさに言うと、心の窓(聴覚心理的な時間窓)を広く(長く)すれば、倍音が聞こえやすくなる、となる。
「きれいにハモると倍音が 聞こえるのか」も参照されたい。
文献
[1]高良富夫「音声言語処理入門」(2024)研究社, pp. 40 - 45.

図1 長さ(サイズ)2048の長い時間窓で観測したスペクトル

図2 長さ(サイズ)128の短い時間窓で観測されたスペクトル。図1とは時間窓長(サイズ)だけが異なる。母音の音色を決定づける第1フォルマントと第2フォルマントの山のピークがよく分かる。ちなみに3kHz付近のピークは「歌手のフォルマント」だ。

図3 図2の曲線を図1に重ねたもの
