AIの進化から学ぶ会話型UIの課題

Yasuhisa Hasegawa

Jun 6, 2016 • 6 min read

bot-conversation

UIを考える前に本質を探る

人と情報の関係が会話（チャット）のようになることに伴い、コンテンツだけでなく UI デザインも、会話の中でどのように表示すると適切なのか考える必要があります。会話型になる UI デザインについて2年前に記事にしましたが、今は状況が大きく異なります。

自然言語が使えるチャットボット「ELIZA」は 1960年代に開発されました。

Facebook Messenger はボットの開発やコンテンツの最適化ができるプラットフォームを発表していますし、Slack Bots は開発者にとって馴染みの深いものになっています。また、友人のように振る舞うことができる Xiaoice（微软小冰）も多くの方に利用されるようになりました。Xiaoice は、昨年 WeChat でリリースされて以来、数百万のフォロワーがいる人気ボット。同じ技術が採用されているりんなは、 LINE で楽しむことができます。ボットが友達と呼べる日は遠い未来の話ではありません。

チャットは友人・知人と会話をするためだけでなく、サービス利用の形状になりつつあります。ボットからのアドバイスをもらいながらショッピングができる Fify。今晩の宿泊地が探せる HotelTonight も、コンシェルジュと会話ができます。 HealthTap は医者。AirTailor は仕立屋といったように、専門家からアドバイスやサービスをチャットで直接受けられるアプリもあります。ボットだけでなく、人が直接関わる場合もありますが、会話型の UI が受け入れられているのが分かります。

人と人だけでなく、人とサービスとの関わりが会話という形状をもつようになった現在。今後のコミュニケーションデザインがどうなるか楽しみですが、UI デザインを考える前に一度立ち止まる必要があると考えました。会話とはそもそも何なのか？ 会話は何によって会話として成り立つのかといった本質を理解することで、人工知能（AI）に必要なもの、会話化する UI デザインを考えるためにヒントになると思います。

会話ではなくコマンド

スマートフォンを持っている方であれば、ボットとの会話を Siri や Google Voice で一度は体験したことがあると思います。米国まで目を向けると、Amazon Echo の評判は上々ですし、Google Home も期待できる製品です。音声認識だけでなく、答えの精度も年々向上してきています。

刺激と反応

人と人、人と機械とのやりとりで最も原始的なのは「刺激 simulus」と「反応 response 」の関係です。声という刺激（命令）を相手に与えることで、それに対して聞き手は反応（情報提供）します。例えば「今日の天気は？」と Siri に命令すれば、「今日」「天気」という言葉を理解して、今日の天気情報を返してくれます。位置情報や時間帯といった別データが組み合わさることで、「今日の天気は？」という命令に対して、より精度の高い反応を示しますが、刺激ー反応という関係に基づいています。

現在、私たちが体験しているボットとの『会話』の多くは、こうした「刺激」と「反応」のやりとりで成り立っています。ボイスコマンドといった言葉があるように、ボットが反応できるような命令を発しているだけであり、人と人とのやりとりで体験する会話と同じものではありません。結局、ボイスコマンドを覚えなければ的確な反応をしなかったり、そもそも理解してくれないこともあります。

言葉の真意を理解する能力

言葉と文脈

私たちが何気なく発している言葉は、単語ひとつひとつ理解すれば良いというほど単純なものではありません。すべての言葉には文脈が含まれていて、聞き手はその文脈に寄り添って反応します。「今日の天気は？」といった言葉の中には、ここ数日冷え込んだけど今日はどうなの？といった比較が含まれているかもしれませんし、移動が多いので出先の天気が知りたいのかもしれません。ただ「今日」「天気」という単語の意味を理解しただけでは到底辿り着かないわけです。

また、前のやりとりが言葉の意味に影響を及ぼすことがあります。「今日の天気は？」という質問も、「京都へ出張がある」と「傘を忘れてきた」というやりとりが前にあったとすれば、返すべき回答が異なります。

刺激（命令）の意味を文字通り受け取って返すだけでは会話とはいえません。位置情報や年齢といった属性しか文脈として捉えることができなかったボットも、複雑な文脈を理解して会話ができるようになってきています。Siri を開発していた Dag Kittlaus 氏が、今年 5 月に発表した Viv は好例です。「母のために花を買いたい」と尋ねると、お勧めの花束が表示される … までは普通ですが、それに続く「チューリップはある？」という言葉をきちんと理解して提案をするシーンがあります（5分30秒あたり）。

「チューリップはある？」という質問を言葉通りに理解して反応するのではなく、母のために花束を買いたいという一連のやりとりの中での質問だという文脈を理解しています。従来のようにコマンドを覚えるという感覚が薄れ、人との会話により近いやりとりができるようになりました。

会話に必要な『人間らしさ』

より複雑な文脈をつかみ取れるようになったボットですが、文脈をきちんと理解すれば会話になるのかというと、まだ足りない部分があります。そのヒントになるのが、映画「Her」。作品にでてくる AI の Samantha は、主人公の痛み、苦しみ、欲求や喜びを理解して、会話をしています。

映画「Her」のワンシーン

こうした感情も文脈のひとつであると言えますが、先述したものと異なり、感情は予期するのが難しく、突発に起こることがあります。過去の記憶と重なって悲しくなることもあるでしょうし、表情や声には出さないけど願望を隠し持っていることがあるかもしれません。

そもそも良かったと思える会話とはどういったものなのでしょう。良い会話には以下の 4 点が共通しています。

相手の話に耳を傾ける（一方通行にならない）
敬意を示したり感謝をする（会話への関心）
ネガティブな言葉は避ける（しかし、違うなど）
自分の気持ちを相手に伝える（感情的なつながり）

「Her」に登場した Samantha は実現可能かも分からない架空の AI ですが、主人公（そして映画を観ている私たちも）が感情的になれたのは、機械ではなく、対等の相手として会話ができたからだと思います。言葉の文脈ではなく、話している相手の文脈（経験、感情）を考慮すると、私たちの会話はより親密なものになるはずです。

まとめ

人と人、人と機械が『会話』ができるようになるには、刺激ー反応という単純な関係では不十分です。私たちの会話は以下の 3 つで構成されており、それぞれが満たされていることで、はじめて「会話」として成り立ちます。

言葉そのものの理解
文脈の理解
人間らしいやりとり

AI の技術は日々進歩していますが、2, 3 の探求が今まさに進んでいるところです。UI デザインもただ機械が生成するデータの見た目を整形すると考えるのではなく、どういった見た目とやりとりであれば会話と思ってもらえるかを考える必要があります。

UI デザインでもライティングは重要ですが、会話のデザインとなるとさらに重要になりそうです。言葉のトーンやニュアンスで会話の仕方が決まることがあります。日々の会話シーンを抜き取って、そのとき誰とどのように話しているか振り返ってみると、そのシーンで適切な会話の特徴が見えてくるはずです。言葉ひとつひとつをどう表記するだけでなく、会話のシナリオを想像することが必要になるでしょう。将来、脚本家や作家と組んで『会話をデザイン』する日が来るかもしれません。

Yasuhisa Hasegawa

Web やアプリのデザインを専門しているデザイナー。現在は組織でより良いデザインができるようプロセスや仕組の改善に力を入れています。ブログやポッドキャストなどのコンテンツ配信や講師業もしています。