Discoveryはテキスト分析のSaaS/APIプラットフォームとして、これからIBMが推進しようとしているサービスです。 下記の機能を一つのAPIですべて持っていることが最大の特徴で、これにより非構造型および構造型データ検索の統合プラットフォームとなることを目指しています。

データ取り込み機能

PDF / WORD / JSONに対応。
従来のDocument Conversionと同等機能です。

エンリッチ機能

取り込んだ文書に対してNLU(Natural Language Understanding)によるタグ付けを行います。追加可能項目は、entity, conceptなど最大8項目(日本語は7項目)です。
Discoveryの特徴の1つが、登録されたテキストに対するエンリッチ機能です。
内部で別のWatson APIであるNLU(Natural Language Understanding)が呼び出され、付加的な情報をとして元テキストと共にINDEXに保存されます。
エンリッチされる項目としては、以下のものがあります。いずれも、ニュース記事などパブリックデータにより事前学習した機械学習モデルにより、入力テキストから生成される情報となります。

エンリッチされる項目

  • キーワード(keywords)
  • 評判 (sentiment)
  • 概念(concepts)
  • カテゴリー(categories)
  • セマンティックロール(semantic_roles)
  • 感情 (emotion)※
  • エンティティ(entities)
  • 関係 (relations)

※ 感情(emotion)は日本語未対応です

Discoveryでは、登録した文書に対して、エンリッチされた付加情報を含めいろいろな検索を行うことが可能です。 下記の画面は、ニュース記事から人物(Person)をエンティティとして抽出し、人物間の関係をグラフ表示したデモアプリの事例となります。

ストレージ機能

データはクラウド上にINDEXとして保存されます。

検索機能

エンリッチ機能で付加された情報を含め、類似度スコア付きのデータ検索を行うことができます。