IBM Watson トライアル その4/4

■前回までの内容


これまで過去3回、Watson APIを1つ1つ、順番にトライアルを実施してまいりました。

■APIの紹介


今回が最後の紹介です。
残りのデモをトライアルしていきます。

Speech To Text


喋った内容がテキストに変換されるデモです。

リアルタイムに認識されていく経過がテキストとして表示されていて興味深いです。
メインの認識結果のほかに、信頼度が低い(同音異義語や認識が曖昧な)個所について別の認識単語に置き換えた結果も提示されます。

このAPIは日本語に対応していますので、色々と試してみました。

発音 認識
わとそん ワトソン
にほんご 日本語
ぐーぐる Google
きしゃのきしゃはきしゃできしゃした 記者の貴社は帰社で帰社した
じゅうだいのくるま 十代の頃も
十代車
くるまがじゅうだい 車が渋滞
車が十台
じゅうだいのおとこのこ 十代の子
じゅうだいなじこ 重大な事故
とうきょうとっきょきょかきょく 東京特許許可局
きょうはあつい 今日は暑い
あついほん 厚い本
あついてつ 熱い鉄
もーつぁると 大阪城
あいふぉん IPhone
はいふん ハイフン
あいろん あれ

上記には記載していませんが、周りで別の人が会話していたりとマイクの環境が良くなかったせいか、発音の聞き取りの時点で全く認識できなかったことも結構ありました。おそらく、話し手が複数いる場合にはうまく対応できないのかもしれません。

同音異義語については、文章の流れを意識してその場に相応しい単語が選択されているようですが、IMEによる一発変換と比較して大きな差を感じるほどではありませんでした。
音声から抑揚などテキスト以外の情報を聞きとって利用しているのかなどについてはよくわかりませんでした。
当たり前ですが、前後の関係性を認識しやすい長文の方が短文よりも得意そうですし、話し言葉やくだけた文章よりも硬い文章の方が得意そうでした。

Text To Speech


入力したテキストが音声に変換されるデモです。

このAPIは日本語に対応していますので、いろいろと日本語のニュースを読ませてみました。
イントネーションや文章の区切りなどに若干の違和感があるものの、概ね聞き取れる程度の発音でしゃべってくれました。

例えば、以下のような部分でも問題なく発音されます。

テキスト 発音
103.5% ひゃくさんてんごぱーせんと
3700億円 さんぜんななひゃくおくえん

前後の文の内容で読み方が変わるので、必ずしもそのような発音にはならないのですが、以下の様な読み間違いが発生していました。

テキスト 発音
一般相対性理論 いち はんあいたいせいりろん
無線LAN むせんえるえーえぬ
1+1=2 いち いち に

略語を含め英字記載部分部分はアルファベット読みに、記号はそもそも発音されないような傾向です。たしかに、「かっこ」や「ハイフン」などを読み上げられると困りますから、そのように学習(もしくは、インプットとして無視)しているのでしょう。しかし、略語は一般的な発音を期待したいところです。

Tone Analyzer


テキストから感情、文体などを分析し、文章全体と文ごとにその結果を表示するデモです。

いくつかのニュース記事本文を分析してみます。

アメリカ大統領選
Emotion Language Style Social
Anger 0.09 Analytical 0.45 Openness 0.67
Disgust 0.34 Confident 0.34 Conscientiousness 0.81
Fear 0.01 Tentative 0.23 Extraversion 0.49
Joy 0.00 Agreeableness 0.57
Sadness 0.01 Emotional Range 0.22

宇宙飛行士が地球に帰還
Emotion Language Style Social
Anger 0.30 Analytical 0.68 Openness 0.40
Disgust 0.02 Confident 0.87 Conscientiousness 0.26
Fear 0.04 Tentative 0.38 Extraversion 0.75
Joy 0.00 Agreeableness 0.69
Sadness 0.02 Emotional Range 0.63

億万長者
Emotion Language Style Social
Anger 0.15 Analytical 0.13 Openness 0.82
Disgust 0.51 Confident 0.09 Conscientiousness 0.84
Fear 0.01 Tentative 0.00 Extraversion 0.12
Joy 0.01 Agreeableness 0.42
Sadness 0.03 Emotional Range 0.11

なぜか、AngerやDisgustに満ちた結果になってしまいました。ニュースのような文章の場合、内容を的確に伝えることを目的としているために、このような結果になってしまったのではないかと推測しています。

宇宙飛行士のニュースではAnalyticalやConfidentの分析値が高くでており、科学的、学術的な内容であることが伺えます。

ディズニーランドの紹介テキストではどうでしょうか。

ディズニーランド
Emotion Language Style Social
Anger 0.02 Analytical 0.07 Openness 0.68
Disgust 0.20 Confident 0.20 Conscientiousness 0.78
Fear 0.09 Tentative 0.00 Extraversion 0.60
Joy 0.55 Agreeableness 0.50
Sadness 0.06 Emotional Range 0.13

こちらはさすがにJoyが高いですね。

自分が書いたメールや記事などを分析させて、相手にどのような印象を与えるか、Chatやメールコミュニケーションで相手がどのような感情状態であるのかなどを分析、対応するなどの目的で利用されることを想定しているとのことです。

Tradeoff Analytics


トレードオフの関係のあるいくつかの要素を分析し、最適と考えられる選択肢を提案するデモですが、残念ながらデモサイトに接続することができませんでした。

車や携帯電話など、スペックと価格であったり、スペックの個別の要素間にトレードオフの関係のあるようなものを購入する際の意思決定のサポートなどに利用されることを想定しているとのことです。

Visual Recognition


画像認識の言葉通り、画像を認識し、分類するデモです。

トレーニングされた画像のみを認識可能なようなので、用意された学習データを用いてトレーニングし、その認識率を確認します。
トレーニングデータはゴールデンレトリバー。

Google画像検索で出てきたゴールデンレトリバーとそれ以外の画像を幾つか与えてみます。

画像イメージ 判定
ゴールデンレトリバー、立ち 77%
ゴールデンレトリバー、座り 75%
ゴールデンレトリバー、顔のアップ 82%
ゴールデンレトリバー、子犬6匹 77%
ゴールデンレトリバーのぬいぐるみ 78%
クーバース(ゴールデンレトリバーに似た犬種) 68%
グレートデーン 否定(50%未満)
チワワ 55%
否定(50%未満)
ノルウェージャンフォレストキャット 否定(50%未満)
ゴールデンレトリバーのフィギュア(チョコエッグ) 56%
ゴールデンレトリバーのイラスト 否定(50%未満)

なんとなく認識できているような感触が得られました。一部誤認識している部分については学習データが少ないのが原因だと思われます。沢山のデータで学習した場合にどの程度の精度になるのか気になります。
チョコエッグのフィギュアの判定についてはフィギュアの出来がいいのか、画像認識側が頑張ったのか面白い結果が出ました。

■まとめ


今回で、すべてのデモのトライアルが完了しました。

WatsonがSoftbankと共同で日本語を学習し始めて1年ほど経つそうですが、各APIが、どんどん日本語対応されていくことを期待したいです。

以上、全4回の長い記事でしたが、お付き合いいただきありがとうございました。
IBM Watson トライアル その4/4 IBM Watson トライアル その4/4 Reviewed by 中本 on 12:20:00 Rating: 5
Powered by Blogger.