n-memo: Julius : TODO : 動的な認識パラメータチューニング

システム全体の入力 :
1. 認識対象となる音声
2. チューニング用音声 + それに含まれるべきキーワードリスト（＝学習データ）

1をルートとするストリームグラフと2をルートとするものは「直接的には」連結ではない（非連結グラフ）．
ただし，2のグラフと1のグラフはTCP通信を行う．

2において，パラメータの「指針」を計算し，TCPにSink．
1において，そのTCPからSourceとして受け取り，UDOP_SpeechDecoder の音声とは別の入力として設定パラメータを与える．
UDOP_SpeechDecoder はその値をJuliusに設定する．

------------------------------

問題点：
指針の計算をどう行うか．
学習データごとに，キーワードが正しく認識される認識パラメータの下限を求めた後，それらの値の最大値を指針として与える，など．

最大値とは．
2に与えられた学習データのすべてに対する認識パラメータの最大値とするのか．
（この場合，適当な学習データ数ごとに，入力された学習データの最初から現在までの認識パラメータの最大値を指針として出力し続ける）

本当に最大値でいいのか．
そもそもすべての学習データがちゃんとキーワードを認識できるような音声であるとは限らない．
あらゆる質の音声を認識できるようにしたいのであれば，このような動的チューニングは必要なく最初から大きな値を与えておけばいいのである．

最大値以外のチューニング方法を考えるべき．

------------------------------

参考 :
http://julius.sourceforge.jp/juliusbook/ja/desc_search.html#id2540911

その他の課題：
負荷が高くなったときに認識パラメータを低くする機能の実装

n-memo

2010年6月9日水曜日

Julius : TODO : 動的な認識パラメータチューニング

0 件のコメント:

コメントを投稿

ラベル

ブログアーカイブ