デザインテクノロジーの最前線 - 桐山孝司

m.c.t.ホーム > エクスペリエンスマガジン > デザインテクノロジーの最前線 - 桐山孝司 > 自然言語処理による評判と意見の分析

2008.04.10自然言語処理による評判と意見の分析

最近、ブログに基づく評判分析をよく見かけるようになった。 ブログのホスティングをしているgoo、Yahoo! JAPAN、BIGLOBE、 などが評判分析の機能を提供している他、Niftyなどもビジネス向けサービスを行っている。

評判分析ではある事柄について、 肯定的な評価をしている記述と否定的な評価をしている記述とを自動的に分類する。 従来のウェブ検索エンジンでは入力された検索語がウェブページに含まれるかどうかを判断しているので、 ページ中の単語と検索語とのマッチングが主な作業である。それに対して評判分析では、 あるテキストがいま検索している事柄について述べていると判断し、その関心事項についての評価を抽出するという作業をしている。 そのため評価分析は単純なキーワード検索よりも高度であり、自然言語の処理技術が向上したため可能になったといえる。

たとえばNTTレゾナントの検索エンジンgooでMacBook Airの評判を見てみると、 この事項に関連したブログが2月後半に大きく増えていることがわかる。Macbook Airの日本発売は2008年1月16日で、実際には2月中旬から予約した人の手元に届いたそうなので、 このピークの中のある部分は実物を手に取った人によるものと思われる。ただ評判分析も万全ではなく、MacBook Airに関しても詳しく書かれていて参考になるようなブログは、大体よい点と悪い点の両方を指摘している。 そのような記述を肯定か否定かに分けるのはもともと無理があるので、 ある話題に関するブログ数の増減の傾向はおよそ正しいとしても、 肯定と否定の割合は言語処理のしかたに依存すると考えた方がよいだろう。

評判分析ではまずコンピュータに大量のサンプルの文章を与えて、 そこから抽出した文章の特徴をもとに肯定か否定かを判断できるように学習させる。 実は評判分析の開発には映画のレビューが使われていることがあり、実際のサービスでも映画の評判が対象分野に入っていることが多い。 すでにオンライン上には大量の映画のレビューが蓄積されており、 しかもレビューのまとめとして星4つなど数字で評価がつけられていることもある。 もし数字の評価があればそれと一致する答えが出るように、 コンピュータに機械学習をさせるときの目標設定が自動的にできるので都合がよいのである。

評判分析が手がかりにする文章の特徴は、キーワード検索よりも複雑である。 たとえば成功という言葉が含まれているからといって、その文章が好意的な記述であるとはかぎらない。単純に考えても 「今回そのキャスティングが成功しているとはいえないだろう」のように文中に意味を変える言葉があると、賛否が逆になってしまう。 またレビューには途中まで個々の要素を持ち上げているが、 最後になってそれら全体のまとまりが欠けていたと批判するようなレトリカルな書き方もある。したがって厳密な評判分析のためには、 レビューの中であるキーワードがどの文脈で出てきたかを理解していく必要がある。ただし今のところ、 それだけ厳密に評判分析ができるサービスはないようである。

また評判分析のための機械学習で見つけるべきキーワードは、 人間が直観的に思うほど単純でもない。コーネル大学のLee教授らによると、映画のレビューに関して人間にキーワードを挙げさせると、 肯定的な単語ではめくるめくような、輝かしい、圧倒的な、すぐれた、素晴らしいなどが挙がり、否定的な単語ではいまいましい、 ひどい、おぞましい、醜悪な、見ていられないなどが挙げられた[1]。 しかしこれらのキーワードを実際の映画のレビューにあてはめてみると、肯定か否定かを正しく判定できたのは約60%しかなく、 肯定と否定のキーワードの数が競り合っていてどちらとも取れる場合が75%もあった。 つまり人間が直観的にそれらしいと判断して選んだキーワードだけで映画のレビューを分類するのは素朴すぎるのである。

一方でLee教授らは、 キーワードを機械に抽出させることで人間よりよい結果が出せることも示している。コンピュータに見つけさせた肯定的な単語は愛、 素晴らしい、最高、偉大、すごい、美しいなどで、否定的な単語は悪い、最悪、くだらない、無駄、退屈などであった。 肯定と否定の区別をつける単語を機械学習で見つけることによって、正しく判定できたものが69%あり、 肯定とも否定とも確定できなかったものは16%しかなかったという。面白いことに、肯定的なレビューの単語には 「それでもなお(still)」、否定的なレビューの単語には「疑問符(?)」が入っている。否定的な文章が続いた後で 「それでもなお、こ

の映画は観る価値がある」という肯定的な結論で締めくくったり、 「監督はどういう考えなのだろう?」と否定的なニュアンスの疑問を投げかける場合にこれらの単語が効果を発揮する。 このようなキーワードは人間が直観的に探すだけではなかなか見つからないので、機械学習を使って自動的に探索する意義があるといえる。

一般にはブログに出てくる製品や映画のレビューでは、 肯定的か否定的かがはっきりしている場合が多い。しかしもっと一般的に個人が書くことの中には、 たとえばこの窓口の手続きがもっと簡単にならないかという不満であったり、 隣の区の補助金制度がうちの区にもあればよいのにという希望であったりと、 肯定でも否定でもない新たな可能性について意見を言っている場合がある。それに対応するように、 評判分析よりも広い概念である意見分析も研究されている[2]。意見分析は統計的に平均化するのでなく、 あくまで個人が持っている希望を整理して個別の意見にアクセスしやすくするのが目的である。自然言語処理の技術が進むにつれて、 評判分析だけでなく様々なトピックに関する意見分析が可能になってくるだろう。 その時にはおそらく文字ベースのブログだけでなくもっと感情面を表現できるチャンネルが新たに普及していると思われるが、 いずれにしてもそこは新しいニーズを提示したり発見したりするための重要な場になると思われる。 自然言語理解の技術的な課題は多いが、意見分析は今後着実に発展していくことが期待される分野である。

 

[1] Pang, B., Lee, L., Vaithyanathan, S.: Thumbs up? Sentiment Classification using Machine Learning Techniques, Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp.79--86, (2002)

 

[2] 大塚裕子、乾孝司、奥村学:意見分析エンジン、コロナ社、 (2007)

 

図:gooでのMacBook Airに関する評判分析

macbookair-analysis