1988年に研究室で撮った音声認識実験のデモです。上の音声認識ロボットのデモと応答速度を比較してください。パソコンの進歩が分かります。ここでは、入力された音声を認識するのに30秒もかかっています。このデモでは、10個の数字(ゼロ~9)を表す音声を認識します。デモでは「いち」と発声しています。音声自動認識の仕組みは、以下のとおりです。
(0)あらかじめ標準パターンを分析し記憶しておく。
(1)音声が入力される。
(2)音声の始点と終点が検出され、始点から終点までをスペクトル分析する。
(3)各標準パターンとの距離(類似度)を計算する。
(4)最も近い標準パターンを認識結果とする。
(5)認識結果を出力する。
詳しくは、所長が書いた「音声言語処理入門」(研究社)を参照してください。