Watson

Speech To Text

Speech To Textは音声をテキストに変換するAPIです。
ユースケースとして以下のようなものが考えられます。

数多くの利用オプション

対応言語、データ形式、モデルに関して以下のような数多くのオプションを利用可能です。

対応言語

以下の八カ国語に対応しています。
日本語、中国語(標準)、英語(米国)、英語(英国)、フランス語、アラビア語、スペイン語、ポルトガル語(ブラジル)

入力フォーマット

下記のような多くの音声フォーマットをサポートしています。
FLAC, MP3, PCM, WAV, Ogg, WebM, Mu-law/u-law

音声モデル

音声データの品質により次の2つの音声モデルを選択可能です。
ブロードバンド(16kHz)、ナローバンド(8kHz)
「ナローバンド」は電話越しの音声など音声品質の悪い音源の認識用に最適化された音声モデルです。

接続形態

APIサービスとの接続形態に関しては、リアルタイム性対応の有無など業務要件に応じて以下の方式を選択可能です。

Web Socket

Web Socket通信を利用して音声ストリームをほぼリアルタイムで変換します。

REST HTTP

他のWatson APIと同様のREST APIで呼び出す方式です。更に次の2つの方式に分かれます。

Sessionless方式

事前取得済み音声データを変換するときに利用します。最も簡単に利用できる方式です。

Session付き方式 方式

session idを利用してWeb Socketを使わずに準リアルタイム変換を実現します。

Asynchronous HTTP

変換結果をコールバック関数で返す方式です。
長時間の事前取得済み音声データ変換時に便利な方式です。

新機能の実装

Speech To Textでは、東京基礎研究所の日本人研究者が開発に参画しており、日本固有の業務要件を含めて多くの新機能が順次提供されています。

言語モデルカスタマイズ機能 (2017年7月 日本語製品版リリース)

次の2つの方法により業務に特化した言葉を学習させ認識精度をあげる仕組みです。
文書登録: 業務固有の用語の入った文書を登録(この場合読み登録は行わない)
辞書登録: 認識後文字表記、読み(カタカナで指定)をjson形式で登録

音響モデルカスタマイズ機能 (2017年10月 日本語ベータ版リリース)

お客様環境での音声データを学習データとすることで、音響モデルのお客様個別カスタマイズ(雑音環境,発話スタイル,アクセントなど)を行います。
バックグラウンドにお客様環境固有のノイズなどがある場合、認識率向上に大きく寄与します。

話者認識機能(2017年4月 日本語ベータ版リリース)

複数話者の音声が入っている音源から話者の特定を行う機能です。
音声分離をしていないコールセンターの音声データ解析、会議での話者認識などの用途が考えられます。

言語モデルカスタマイズ辞書の重み付け (2017年10月 日本語版ベータリリース)

複数話者の音声が入っている音源から話者の特定を行う機能です。
音声分離をしていないコールセンターの音声データ解析、会議での話者認識などの用途が考えられます。

その他機能

Speech To Textでは、以下のような追加機能も利用可能です。

各単語の認識信頼度を出力

結果データには、単語毎の認識信頼度も出力されます。

認識結果の代替候補を出力

認識結果には第一候補以外の代替候補も出力させることが可能です。

事前登録したキーワードの抽出

業務的に重要なキーワードがある場合、事前登録してそのキーワードのみ抽出することもできます。

(ご参考) 最新研究成果とSTTとの関係について

音声認識はdeep learning技術が有効な分野の一つです。
IBMはこの分野の研究開発にも力を入れており、公開ベンチマークテストで世界最高水準の結果を出しています。(2017年3月 NIST Switchboardという英語電話会話ベンチマークテストで94.5%の認識精度を実現)
音声認識の構成要素である「音響モデル」と「言語モデル」に最先端のdeep learningの実装が取り入れることでこの結果を出しています。
商用サービスであるWatson APIにも、この最先端技術の一部が適用されています。