2010年6月9日水曜日

Julius : TODO : 動的な認識パラメータチューニング

システム全体の入力 :
1. 認識対象となる音声
2. チューニング用音声 + それに含まれるべきキーワードリスト(=学習データ)

1をルートとするストリームグラフと2をルートとするものは「直接的には」連結ではない(非連結グラフ).
ただし,2のグラフと1のグラフはTCP通信を行う.

2において,パラメータの「指針」を計算し,TCPにSink.
1において,そのTCPからSourceとして受け取り,UDOP_SpeechDecoder の音声とは別の入力として設定パラメータを与える.
UDOP_SpeechDecoder はその値をJuliusに設定する.

------------------------------

問題点:
指針の計算をどう行うか.
学習データごとに,キーワードが正しく認識される認識パラメータの下限を求めた後,それらの値の最大値を指針として与える,など.

最大値とは.
2に与えられた学習データのすべてに対する認識パラメータの最大値とするのか.
(この場合,適当な学習データ数ごとに,入力された学習データの最初から現在までの認識パラメータの最大値を指針として出力し続ける)

本当に最大値でいいのか.
そもそもすべての学習データがちゃんとキーワードを認識できるような音声であるとは限らない.
あらゆる質の音声を認識できるようにしたいのであれば,このような動的チューニングは必要なく最初から大きな値を与えておけばいいのである.

最大値以外のチューニング方法を考えるべき.

------------------------------

参考 :
http://julius.sourceforge.jp/juliusbook/ja/desc_search.html#id2540911

その他の課題:
負荷が高くなったときに認識パラメータを低くする機能の実装

0 件のコメント:

コメントを投稿