n-memo: 音声認識とビーム幅について (ver 0.0.0)

音声認識における統計的手法として，音声の音響的な特徴と言語的な特徴をそれぞれモデルとして学習したもの（音響モデル，言語モデル）を用いる手法が主流であり，音声認識エンジン Julius もこれを用いている．

音響モデル，言語モデルの詳細な説明は省く．

音声認識エンジンでは，モデルに基づいて出力となる認識仮説（文章）の候補の尤度を計算し，最も尤度の高い認識仮説を最終的に出力する．

出力の候補となる認識仮説において，あらゆるパターンを想定するならば，その仮説の数は膨大となってしまう．このため，音声認識エンジンは音声の先頭から逐次的に仮説の生成，尤度の計算を行っていき，途中の尤度の低い仮説は認識の正解となる可能性が低いため，出力候補から除外していく．

ここで，計算過程において認識仮説の候補として保持する個数を「ビーム幅」と呼ぶ．

音声認識エンジンでは，この尤度の計算（＝パス）を二回行う（第一パス，第二パス）．第一パスでは，計算量の少ない（精度が若干低い）手法で尤度の計算を行い，出力候補となる認識仮説の数を絞る．第二パスでは，第一パスで絞られた認識仮説に対して，厳密に尤度の計算を行い，ここで最も尤度の高い認識仮説が実際の出力となる．

---

Stream Speech Recognition（StreamSR）では，この第一パスにおけるビーム幅（第一ビーム幅）を実際の認識を行う前に，あるいは認識を実行している途中で，教師付き音声を学習データとして与えることで，最適な第一ビーム幅の計算を行い，適用する．

---

参考文献

河原達也, 李晃伸, 連続音声認識ソフトウエア Julius
> http://www.ar.media.kyoto-u.ac.jp/lab/bib/review/KAW-JSAI05.pdf

T. Kawahara, A. Lee, T. Kobayashi, K. Takeda, N. Minematsu, S. Sagayama,
K. Itou, A. Ito, M. Yamamoto, A. Yamada, T. Utsuro and K. Shikano.
"Free software toolkit for Japanese large vocabulary continuous speech recognition."
In Proc. Int'l Conf. on Spoken Language Processing (ICSLP) , Vol. 4, pp. 476--479, 2000.
> http://julius.sourceforge.jp/paper/icslp00-6.pdf
> http://julius.sourceforge.jp/index.php?q=documents.html

村上仁一 , 確率的言語モデルによる自由発話認識に関する研究 (博士論文)
> http://unicorn.ike.tottori-u.ac.jp/murakami/doctor/main.html

n-memo

2010年6月11日金曜日

音声認識とビーム幅について (ver 0.0.0)

0 件のコメント:

コメントを投稿

ラベル

ブログアーカイブ