2010年7月23日金曜日

StreamSR : 要求入力レート、スループット


入力コア数1、認識コア数4、ビーム幅1500(その他省略)の設定のもとで、Streams内部で求めたスループット限界の値は(音声時間vs実処理時間) 2.21 である。

この条件下で、要求入力データレート(Streamsの外でInputTimeを付与)を 0.5 , 1.0 , 2.0 , 3.0 , 6.0 と変化させたときの、テストセット(音声ファイル30個)に対するレイテンシ、および音声時間を図示する。

図より、入力データレート 0.5 , 1.0 (2.21 より低い)ではレイテンシはほぼ音声時間に比例する値で、これは認識処理自体のレイテンシのみが現れる結果となっている。

一方、入力データレート 3.0 , 6.0 などスループット限界より大きい値のときは、認識コアの処理待ちにより、レイテンシが大きく増大している。

この入力データレートの値は、Streams内部からでも参照可能なので、この値を元に最適ビーム幅を決定することが可能である。

(余談)
図の結果だと入力データレートが低いときでも、例えば10秒の音声に対して15秒ものレイテンシがかかっている。これはリアルタイム音声認識としてはちょっとレイテンシが大きすぎると思う。
レイテンシの下限値については、認識コア数を増やしても(スケールアウトしても)変わらないので、もっと基本的な部分でスケールアップするべき(ビーム幅を下げるとか)。

0 件のコメント:

コメントを投稿