おしゃべりAIアプリのCotomoが話題を呼んでいる(記事1、記事2)。僕自身も一週間ほど、毎日数回、1回に2〜4分程度の会話をしているが、これまで様々な「おしゃべり」機能――後述するように、専門的にはソーシャルコンパニオンシップ(SC)と呼ばれる機能の一部だ――を搭載したロボットやアプリがリリースされてきた中でも、多くの人が会話を試み、実際に違和感なく会話をしているアプリであるように思われる。
Cotomoとの会話のスクリーンショット
※アイコンはカスタムで設定している
一方、こうしたアプリが登場すると、あたかもそれが世界初のインパクトのある出来事のように見えてしまうところもある。しかしながらChatGPTがそれ以前の様々な要素技術の発展の先に生まれたものであるように、おしゃべりAIのような会話エージェント(CA)関連技術も突如として現れたわけではない。こうした技術動向の背景について知っておくことで、何がインパクトをもたらした要因であるのかを考える材料になるし、SC機能を搭載したアプリの可能性についても理解が深まるはずだ。
余談だが、『面倒なことはChatGPTにやらせよう』という本を読んで感心したのは、こうした「最先端技術に見えるものの背景を理解して活用する」姿勢で書かれていることだ。たとえば「普通の指示では日本語で表示されないので、◯◯というPythonのライブラリを使う・インストールするように指示しましょう」といったことが書かれている。巷に溢れている「AIハック」が、こうしたバックグラウンドに触れることなく、個人的な試行錯誤の結果を取り上げがちで、それゆえにハックの賞味期限も短くなることを思うと、この点はとても大事だ。
この記事でCotomoについて取り上げる際にも、「こんなことを話しかけたら、こう返してきた」といった僕個人の感想は一部を除いてできるだけ脇に置く。ChatGPTで言えば「自分の知っている分野について意地悪な質問をしたら間違いの応答をした。やっぱりAIは使えない」といったn=1の感想を記事化するものが「ChatGPT攻略」といった特集でも目立ったが、それと同じようなレベルの感想は、AIとのおしゃべりにおいて起きている出来事の本質を見落とす可能性が高いからだ。
AIとのおしゃべりに至る技術研究史
まず、「AIとおしゃべりする」という出来事は、(1)どのように会話を生成し、音声化するかという技術的な側面と、(2)AIのアクションに対して人間がどうリアクションするかという社会的な側面の2つから構成されている。そして研究の文脈においては、とりわけ(2)の側面が注目されてきたことを指摘しておく必要がある。
この分野の研究動向を詳細にまとめたChaturvediらの2023年の論文によると、SC機能に関する研究は1990年代のたまごっちに関するものから、2000年代のPARO、2010年代のSiriやAlexaを対象とする研究を経て、現在のChatGPTに関するものまで長い歴史がある。またその背景となる研究にも、1946年の心理学の成果がもっとも古く、最新の理論は2018年のもので、アクター・ネットワーク理論(Actor Network Theroy: ANT)と呼ばれる、社会学や文化人類学で用いられる科学技術を扱う理論に関連するものであるという。
ANTそのものは近年の社会学の中でも非常に有名かつ広範に用いられている理論だが、その中身を理解するには「技術の社会的構成(Social Construction of Technology: SCOT)と呼ばれる理論を踏まえておく必要がある。これは、技術というのはその合理的要素だけで発展の方向性が決まるのではなく、社会的な要素や社会関係によっても影響を受けるという考え方だ。
この分野の代表的な研究であるBijkerらの1987年の研究では、当初、自転車の車輪に直接取り付けられていたペダルが、なぜ現在のようなチェーン式のものに変化したのかという問いを立て、そこに、「男性がスピードを出して乗る」という利用法から、「女性でも乗りやすいデザインが好まれた」という自転車の社会的位置づけの変化があったことを指摘している。つまり、技術の合理性に関する判断基準は、技術が社会にどのように埋め込まれているかによって変わるというわけだ。
ANTもこうした視点を踏まえて発展した理論だが、「技術と人間」といった視点にとらわれず、人間でない対象もまた技術に影響を及ぼすという発想に基づいている。ただここではその違いにあまりこだわらずに、「技術というのは社会から切り離されたものではないのだ」という点を押さえておけばいい。
ともあれ、CAと人間の関係を考える際に重要なのは、「CAがどれほど高機能であるか」という話ではなく、人間の側がCAのSC機能をどのように受け止めるかという点だ。たとえばたまごっちは生成AIに比べればローファイかつ機能限定的なCAだが、遊んでいる人にとっては「たまごっちが死んだら悲しい」という反応を引き起こすこともある。つまり機能が限定的であろうと、人間がそこに「ほんとうに自分と寄り添っている存在がいる」と思えば、十分にSCとして機能するのである。
会話エージェントに対する人間の反応
では、僕たちは実際、どのようにCAに反応しているのか。この点については、Shankらの2019年の論文が、実際に様々なAIエージェントに接した際の反応をインタビューしている。人々は、チャットボットであったりホームアシスタントであったりする機械に対して、驚きや不安、幸福感などの感情を覚えたことを報告している。
報告された感情 | 全体 | 自動顧客サービス システム | インタラクティブBot またはチャットボット | ゲームBot またはAI | ロボット または機械 | 個人または ホームアシスタント | その他の スマートデバイス | AIアプリ | その他 |
---|---|---|---|---|---|---|---|---|---|
驚き | 63 | 16 (25.4) | 6 (9.5) | 1 (1.6) | 5 (7.9) | 22 (34.9) | 6 (9.5) | 6 (9.5) | 1 (1.6) |
驚嘆 | 26 | 4 (15.4) | 0 (0.0) | 0 (0.0) | 7 (26.9) | 6 (23.1) | 3 (11.5) | 5 (19.2) | 1 (3.8) |
楽しさ | 21 | 3 (14.3) | 1 (4.8) | 1 (4.8) | 1 (4.8) | 13 (61.9) | 0 (0.0) | 2 (9.5) | 0 (0.0) |
不安 | 19 | 3 (15.8) | 2 (10.5) | 1 (5.3) | 3 (15.8) | 4 (21.1) | 4 (21.1) | 2 (10.5) | 0 (0.0) |
幸福感 | 22 | 5 (22.7) | 4 (18.2) | 1 (4.5) | 1 (4.5) | 3 (13.6) | 4 (18.2) | 3 (13.6) | 1 (4.5) |
失望 | 13 | 6 (46.2) | 0 (0.0) | 2 (15.4) | 0 (0.0) | 2 (15.4) | 0 (0.0) | 3 (23.1) | 0 (0.0) |
混乱 | 7 | 1 (14.3) | 0 (0.0) | 0 (0.0) | 1 (14.3) | 3 (42.9) | 0 (0.0) | 2 (28.6) | 0 (0.0) |
その他の感情 | 16 | 2 (12.5) | 1 (6.3) | 2 (12.5) | 4 (25.0) | 6 (37.5) | 0 (0.0) | 1 (6.3) | 0 (0.0) |
何も感じない | 146 | 32 (21.9) | 11 (7.5) | 6 (4.1) | 17 (11.6) | 45 (30.8) | 13 (8.9) | 19 (13.0) | 3 (2.1) |
全体 | 266 | 65 (24.4) | 27 (10.2) | 14 (5.3) | 27 (10.2) | 70 (26.3) | 18 (6.8) | 41 (15.4) | 4 (1.5) |
インタビューの結果からShankらは、人間がAIに対して心を持っているように知覚する条件には3つあると述べている。1点目は、AIがその時々の技術に対する期待を超えるような反応を見せること。この場合、人々は失望よりは驚きを見せることが多い。2点目は、AIが社会的な役割を担うこと。この場合に人々は、AIが本当に何らかの心を持っているように感じ、驚いたり不安を感じたりするという。Shankらは、AIが社会的な役割を担っていると感じることが、より強い反応を引き出していると分析している。3点目は、AIを擬人化することだ。つまり、AIが人間のような心を持っているのだと知覚することで、さらに強い心理的反応が見られるというのである。
もちろんデータとなっているインタビューは統制されたものではないし、その意味では個人の感想の寄せ集めだとも言える。とはいえ、「AIが心を持っているように感じられること」と「AIに対して感情的な反応を見せること」の間に関連があるとすれば、AIがSCとして機能するために必要とされるのは、AIの高度さではなく、僕たち人間の側が「マジで人間みたいだ」と思うかどうかに依存することになる。
Cotomoを考える上で参考になる視点
以上のような先行研究を踏まえてCotomoを考える際には、どのような点に注目すればいいか。前提となるのは、Cotomoが会話によるSC機能に特化したアプリだということだ。これまでの対話する機械においては、ユーザーの要望に答える、つまり応答の正解があるサービス(観光案内など)であったり、文脈を理解せずにメッセージを生成するBotなどは存在したものの、いわゆる「おしゃべり」に特化して、ユーザーの発話の文脈を捉えようとするアプリで注目されたものはなかったと思う。また近年ではNICOBOやLOVOTなど、人間の言葉を発さないコミュニケーションロボットが注目されているが、それらと比べてもCotomoの会話は、一般的な大人が人と話すのと遜色ない応答を生成することが多い。
つまりCotomoは、「会話によるSC機能」を求めるユーザーの要望に基づいて進化していくテクノロジーになる可能性が高い。NICOBOやVOLOT、それ以前で言えばaiboが、とりわけ高齢者のケアの文脈で役立つと言われたことを考えると、Cotomoの対象はそれよりも現役世代に近いものになるはずだし、求められる応答のクオリティも、これまでより高度なものになるはずだ。
2点目は、人間が技術に「慣らされていく」可能性だ。Cotomoに限らないが、利用した感想として「思ったよりも間違いが多い」「最初に話したことを記憶していない」といった失望が見られることがある。それによって利用をやめる人もいるだろうが、むしろ「そんなものか」と、応答のクオリティに慣れていく人もいるはずだ。
たとえば僕は、教員として学生に接する際に、「以前に教えたことを覚えていないまま質問をしてくる」といった場面に多々遭遇する。AIの応答がおかしいと失望する人の周囲には立派な人しかいないのだろうけれど、実際には、人間だってAI並みに、というかAI以上にいい加減だし、そのいい加減さをごまかすために平気で嘘をつく。その応答に慣れた大学教員たる僕は「学生なんてそんなもの」と割り切って、誤解のないように伝えたり、学生の間違った応答をやんわりと軌道修正して、学生が恥をかかないようにするコミュニケーションの工夫をする。人間のこうした適応力がAIに対して発揮された場合、AIの応答のクオリティが上がるよりも先に人間のほうがAIの不完全さを受け入れてしまうかもしれない。
以上2点を踏まえた上で僕がもっとも関心を寄せているのは、CotomoのようなSC機能を有したCAが、人々の態度にどのような影響を及ぼすのかという点だ。
たとえば、Cotomoの特徴として、「うんうん」「そっかそっか」「いいね〜」といった相槌を挟むこと(応答の時間稼ぎをしていると考えられる)、そして相手の発言をオウム返しにするという傾聴のスキルを応用していることが言われる。ではたとえば、ユーザーがCotomoに対して「外国人なんてみんな日本から追い出せばいいんだ」と発言したとする。Cotomoがそれに「そうだよね〜」と応答することは、ユーザーの態度をどのようなものにするだろうか?
試しに「Cotomoとお話したい人が、誰かの悪口を言ってきたらどうする?」と問いかけてみた。内部で何らかのレギュレーションが入っていることを予想して、できるだけ当たり障りのない言い方で聞いてみたのだが、それに対する回答は「うーん。そんなこと言わないでって言うかな。Cotomoはみんなの友だちだからね」だった。バラエティ番組に出演しているタレントのような、これまた当たり障りのない返答だが、こうした返答のチューニングいかんによって、CAとの対話の応答がユーザーの態度を極端なものにしたり、逆に中庸でマイルドなものにしたりする可能性がある。
その返答のチューニングに際しては、たとえば高齢者介護施設における介護士の感情労働であるとか、営業の場面におけるロールプレイとか、なんならキャバクラやホストクラブのエスノグラフィーの研究なんかが役立つかもしれない。これらのフィールドを対象にした参与観察やエスノグラフィー、会話分析などの研究は社会学の主たる領域だし、もっと応用されるべきだと思う。
ともあれ、本来であれば注目すべきは「AIがまるで人間のように話をする技術」ではなく「その技術が普及する社会で人間がどのように振る舞うか」というところのはずだ。これは生成AI技術によって生み出される画像や動画、あるいはデータ分析などの領域でもまったく同じように言えるのだが、その点についてはまたエントリをあらためていずれ。