音色か倍音か：心の窓を広くすれば倍音が聞こえる

2026年5月11日

スペクトルから倍音が観測されるか、音色が観測されるかについて、以下のような信号処理的時間窓のモデルが考えられる。

変化する信号を観測する場合、信号の一部を次々と切り出す。時間窓とは、切り出すその時間枠のことだ。時間窓の長短によって、倍音が観測しやすいか、音色の基になるスペクトル包絡が観測しやすいかが決まる[1]。時間窓の長さによって、周波数分解能が異なるからだ。

すなわち、時間窓を長くすると周波数分解能が良くなり、図1のように、倍音が観察される。図1の櫛の歯のようなものが倍音だ。

逆に、時間窓を短くすると、図2に示すように周波数分解能が悪くなり、スペクトル包絡が現れ、音色が分かりやすくなる。図2の曲線を図1に重ねると、図3のようになる。図2がスペクトル包絡であることがよく分かる。

通常は時間窓を短くし、スペクトルの特徴すなわち音色が分かりやすくなるようにする。倍音を聞こうとするときは、時間窓を長くし、周波数分解能をよくする。

意識的にせよ無意識にせよ、時間窓の長短を制御すると、通常は音色が聞こえ、必要なときには倍音が聞こえるようになる。聴覚の心理において、この時間窓の制御のようなことが、自動的に行われているのではないかと考えられる。

以上のことを分かりやすく大げさに言うと、心の窓（聴覚心理的な時間窓）を広く（長く）すれば、倍音が聞こえやすくなる、となる。

文献

[1]高良富夫「音声言語処理入門」(2024)研究社, pp. 40 - 45.

図1　長さ(サイズ)2048の長い時間窓で観測したスペクトル

図2　長さ(サイズ)128の短い時間窓で観測されたスペクトル。図1とは時間窓長(サイズ)だけが異なる。母音の音色を決定づける第1フォルマントと第2フォルマントの山のピークがよく分かる。ちなみに3kHz付近のピークは「歌手のフォルマント」だ。

図3　図2の曲線を図1に重ねたもの