Discoveryはテキスト分析のSaaS/APIプラットフォームとして、これからIBMが推進しようとしているサービスです。
下記の機能を一つのAPIですべて持っていることが最大の特徴で、これにより非構造型および構造型データ検索の統合プラットフォームとなることを目指しています。
データ取り込み機能
PDF / WORD / JSONに対応。
従来のDocument Conversionと同等機能です。
エンリッチ機能
取り込んだ文書に対してNLU(Natural Language Understanding)によるタグ付けを行います。追加可能項目は、entity, conceptなど最大8項目(日本語は7項目)です。
Discoveryの特徴の1つが、登録されたテキストに対するエンリッチ機能です。
内部で別のWatson APIであるNLU(Natural Language Understanding)が呼び出され、付加的な情報をとして元テキストと共にINDEXに保存されます。
エンリッチされる項目としては、以下のものがあります。いずれも、ニュース記事などパブリックデータにより事前学習した機械学習モデルにより、入力テキストから生成される情報となります。