スペクトルから倍音が観測されるか、音色が観測されるかについて、以下のような信号処理的時間窓のモデルが考えられる。

変化する信号を観測する場合、信号の一部を次々と切り出す。時間窓とは、切り出すその時間枠のことだ。時間窓の長短によって、倍音が観測しやすいか、音色の基になるスペクトル包絡が観測しやすいかが決まる[1]。時間窓の長さによって、周波数分解能が異なるからだ。

すなわち、時間窓を長くすると周波数分解能が良くなり、図1のように、倍音が観察される。図1の櫛の歯のようなものが倍音だ。

逆に、時間窓を短くすると、図2に示すように周波数分解能が悪くなり、スペクトル包絡が現れ、音色が分かりやすくなる。図2の曲線を図1に重ねると、図3のようになる。図2がスペクトル包絡であることがよく分かる。

通常は時間窓を短くし、スペクトルの特徴すなわち音色が分かりやすくなるようにする。倍音を聞こうとするときは、時間窓を長くし、周波数分解能をよくする。

意識的にせよ無意識にせよ、時間窓の長短を制御すると、通常は音色が聞こえ、必要なときには倍音が聞こえるようになる。聴覚の心理において、この時間窓の制御のようなことが、自動的に行われているのではないかと考えられる。

以上のことを分かりやすく大げさに言うと、心の窓(聴覚心理的な時間窓)を広く(長く)すれば、倍音が聞こえやすくなる、となる。

文献

[1]高良富夫「音声言語処理入門」(2024)研究社, pp. 40 - 45.

図1 長さ(サイズ)2048の長い時間窓で観測したスペクトル

図3 図2の曲線を図1に重ねたもの