Watson

Natural Language Understanding

自然言語理解を使用して、テキストを分析し、コンテンツから概念、エンティティー、キーワード、カテゴリー、感情、関係、意味役割などのメタデータを抽出します。※
大きな特徴としてすべてのAPIは公開されているデータにより事前学習済みであり、学習なしで解析結果を取得できる点があります。
また、Watson Knowledge Studioと連携することで、ドメイン固有のEntity/Relationの認識を行うことも可能です。
具体的に持っている詳細機能は以下のとおりです。

エンティティ抽出(Entities)
関係抽出 (Relations)
概念抽出(Concepts)
キーワード抽出(Keywords)
評判分析 (Sentiment)
感情分析 (Emotion) ※
カテゴリー抽出(Categories)
構文解析(Semantic Roles)
その他 (Metadata)



エンティティ抽出

文中の単語等を、人物名、地名、会社名などの属性(Typeと呼びます)込みで抽出します。

入力文

抽出結果

(参考)抽出可能な属性の一覧

※上記は日本語の"Type"のリストですが、更に細かい"SubType"まで抽出できる場合もあります。詳細は下記リンク先を参照して下さい。
出典: https://cloud.ibm.com/docs/services/natural-language-understanding?topic=natural-language-understanding-entity-types-version-2#entity-types-and-subtypes-version-2-





関係抽出

文中のエンティティ間の関係を抽出します。
従来型言語解析技術である「係り受け」に近い機能ですが、関係抽出はより深い意味理解に基づいた分析となります。

入力文

(参考)日本語版のNLUで対応しているRelationのリストは下記のとおりです。
詳細は、下のリンク先を参照して下さい。

Relation Description
affiliatedWith Exists between two entities that have an affiliation or are similarly connected.
basedIn Exists between an Organization and the place where it is mainly, only, or intrinsically located.
bornAt Exists between a Person and the place where they were born.
bornOn Exists between a Person and the Date or Time when they were born.
clientOf Exists between two entities when one is a direct business client of the other (that is, pays for certain services or products).
colleague Exists between two Persons who are part of the same Organization.
competitor Exists between two Organizations that are engaged in economic competition.

参照URL: https://cloud.ibm.com/docs/services/natural-language-understanding?topic=natural-language-understanding-relation-types-version-2#relation-types-version-2-



概念抽出

「概念」とはWikipedia見出し語のことを意味し、対象文と関連の深い見出し語を抽出します。Wikipedia本文との類似度により抽出を行っているので、入力文中に必ずしも該当する概念が単語として含まれている必要はないです。

入力文

抽出結果

text relevance dbpedia_resource
Creativity 0.91679 http://dbpedia.org/resource/Creativity
Graphic design 0.855361 http://dbpedia.org/resource/Graphic_design
Communication design 0.838778 http://dbpedia.org/resource/Communication_design
Design 0.727214 http://dbpedia.org/resource/Design
Creative director 0.70728 http://dbpedia.org/resource/Creative_director
Typeface 0.693 http://dbpedia.org/resource/Typeface
     



キーワード抽出

文中に出てくる重要なキーワード、フレーズを抽出します。エンティティ抽出は一般的な用語の抽出が中心ですが、キーワード抽出は業務に特化した用語の抽出を得意としているので、論文などから重要語を抽出するのに便利です。

入力文

抽出結果



評判分析・感情分析 ※

評判分析は、入力文が「肯定的」「否定的」「中立」のどのポジションかを判断します。
感情分析は、入力文から「喜び」、「怒り」、「嫌悪」、「寂しさ」、「恐れ」の感情の度合いを分析します。いずれも、一つの文書、複数の文章全体のどちらに対しても実行可能です。

入力文

分析結果

評判分析

感情分析

 



カテゴリー抽出

右の表にあるような分類体系※と照合して、入力文がどの分類に近いかを出力として返します。
※分類体系全体については、下記リンク先を参照して下さい。

入力文

抽出結果

出典: https://console.bluemix.net/docs/services/natural-language-understanding/categories.html



構文解析(Semantic Roles)

解析対象の英文SVOの構造に分解します。

入力文

解析結果