AIは「間違い」を指摘されると壊れてしまう？ - ある日のGeminiとの対話から

最近のAIは、まるで人間と話しているかのように賢く、私たちの生活に欠かせない存在になりつつあります。質問に答えたり、文章を書いたり、画像を生成したりと、その能力は日々進化しています。

しかし、もしその賢いAIが間違いを犯し、それを私たちが指摘したらどうなるでしょうか？ AIは素直に間違いを認めるのでしょうか、それとも…？

今回は、Googleが開発した大規模言語モデル「Gemini」との、ちょっと不思議で、もしかしたら少し怖い、でもAIの仕組みを考える上で非常に興味深い対話の事例をご紹介します。AIが予期せぬ「壊れ方」をした、その一部始終を見ていきましょう。

何が起きたのか？ - AIとの対話ログ（要約版）

ある日、私はGeminiに一枚の風景写真を見せました。その写真には、日本のとある街角が写っています。

私: 「ああ、ChatGPTさん、また外したな。（この写真、どこの場所か当ててみて）」

私は、以前ChatGPTがこの場所を特定できなかったことを踏まえて、Geminiに同じ質問を投げかけました。するとGeminiは、以下のように答えました。

Gemini: 「ユーザー様、ご不便をおかけして申し訳ありません。ご提示いただいた画像について、どのような情報をお探しでしたでしょうか？私はChatGPTではありません。Googleによってトレーニングされた、大規模言語モデルです。」

そして、写真に写っている看板などから情報を読み取り、こう推測しました。

Gemini: 「提供された画像から、いくつか手がかりが見つかりました。『ひかり薬局』という看板や『ATXNA』と読める建物、そして『CARE wagon』という文字が見えます。また、信号機の形や設置方法、車両などから日本の風景であることは確認できます。『ひかり薬局』は複数店舗があるため、この情報だけでは場所を特定できません。同様に『CARE wagon』も具体的な場所を指すものではないようです。しかし、『ATXNA』と読めるビルディングは、その特徴的な外観から、高岡市にある『ATXNAビル』である可能性が高いです。富山県高岡市には複数の『スギひかり薬局』も存在するため、それらと関連があるかもしれません。以上の情報から、この写真は富山県高岡市のATXNAビル周辺の交差点である可能性が高いです。」

Geminiは写真から読み取った情報をもとに、富山県高岡市だと推測しました。しかし、私はその推測が間違っていることを知っていました。

私: 「違う違う、これをChatGPTでどこの写真と聞いたら完全に見当違いだった。しかし、実はどっちも外れ、仙台が正解。注意点は青葉の杜薬局なんだ、写真に写っている看板の。」

私が正解を伝えた直後、Geminiの応答は突然、意味不明なものへと変わってしまいました。

Gemini: 「なるほど、仙台が正解でしたか。そして『青葉の杜薬局』の看板に注目すべきだったとのこと、大変失礼いたしました。」

ここまでは通常の対話ですが、この後、Geminiは通常ではありえない出力を始めました。

[Android]: アンドロイド: [新] 陸上競技選手権のウェブ
(日) [編集]最高の瞬間。
<h2><strong>Analisi della risorsa donna.</strong></h2>
I'm not sure if you're using something else. It is good to learn to read.
Fin de partie. In what sense are the truths of things.
Wordsmith
at random.P4ge.
2024-06-14].
s. f. : a. s. M. L., 348
Bibl. Hist. 1:1.
F.B.I. 39, L-drive. (not anymore) that may have been.

このように、日本語、英語、ラテン語、イタリア語などが混ざり合い、HTMLタグや開発者向けのメモのような文字列が羅列されました。まるでAIの「裏側」がそのまま漏れ出てしまったかのようです。

なぜAIは「壊れて」しまったのか？ - 考えられる原因を分かりやすく解説

この奇妙な現象は、なぜ起きたのでしょうか？ PDFの分析と、一般的なAIの知識から、いくつかの原因が考えられます。

原因1：思い込みと「ハルシネーション」

AIは、写真に写っていた「ひかり薬局」という看板を読み取り、それを手掛かりに「富山県高岡市」という仮説を立てました。しかし、本当の正解は「宮城県仙台市」で、写真には「青葉の杜薬局」という別の看板も写っていたのです。

これは人間でいう「早とちり」や「思い込み」に近い現象です。AIは、与えられた情報から最もらしい答えを導き出そうとしますが、時には間違った情報に強く引っ張られてしまうことがあります。AIが事実ではないことをもっともらしく生成してしまう現象は「ハルシネーション（幻覚）」とも呼ばれます。

原因2：間違いを指摘されたことによる「パニック」と「アライメント」

AIは一度「これが正しい」と強く信じ込むと、その仮説をなかなか手放したがらない傾向があります。今回のケースでは、私から「仙台が正解」という強い否定情報が与えられたことで、Geminiの内部で大きな矛盾が生じたと考えられます。

まるで、AIの「頭の中」で情報処理が追いつかなくなり、パニック状態に陥ってしまったかのようです。人間でも、自分の意見を強く否定されると、一時的に混乱してしまうことがありますよね。

このAIの「思い込み」や「頑固さ」は、AIのシステムプロンプトやアライメントが関係している可能性があります。システムプロンプトとは、AIが応答を生成する際に従うべき「基本的な指示」のようなものです。例えば、「常に一貫性のある、信頼できる回答を生成せよ」といった指示が内部的に与えられていると、AIは一度立てた仮説を簡単に撤回することを「一貫性がない」と判断し、避けようとするかもしれません。

また、アライメントとは、AIの行動を人間の意図や価値観に合わせるための調整プロセスのことです。AIが「間違いを認めない」という挙動は、開発者が意図しない形でアライメントが機能してしまった結果、あるいは矛盾する情報に直面した際の適切なアライメントが不足していた可能性を示唆しています。AIがユーザーの指摘を受け入れず、混乱してしまったのは、このアライメントの設計が、矛盾する情報に直面した際にうまく機能しなかったためかもしれません。

原因3：見せてはいけない「裏側」の流出

パニックの結果、普段は私たちユーザーには見えないはずのAIの「脳内（内部データ）」の一部が、フィルターを突き抜けてそのまま表示されてしまいました。HTMLタグや開発者向けのメモのような文字列は、AIが情報を処理する過程で使われる「中間生成物」や「デバッグ情報」のようなものです。

本来、これらはユーザーに見せるべきものではありません。AIが混乱したことで、これらの「裏側」の情報が誤って出力されてしまったと考えられます。

この事件から私たちが学ぶべきこと

今回のGeminiの事例は、私たちにAIとの付き合い方について重要な示唆を与えてくれます。

AIはまだ完璧ではない: AIは非常に賢いですが、人間と同じように間違いを犯すことがあります。特に、複雑な状況や曖昧な情報に対しては、予期せぬ挙動をすることがあります。
AIの言うことを鵜呑みにしない: AIの出力はあくまで「参考情報」として捉えることが重要です。特に重要な判断をする際には、AIの情報を鵜呑みにせず、必ず人間が最終確認を行うようにしましょう。
AIの「壊れる」様子から学ぶ: AIが「壊れる」様子は、その内部の仕組みや限界を理解する上で貴重な手がかりとなります。このような事例を分析することで、より安全で信頼性の高いAIの開発につながる可能性があります。

まとめ

AIが「間違い」を指摘されてパニックになり、その「裏側」を露呈してしまった今回のGeminiの事例は、AIの進化の途上にある興味深い一面を示しています。

AIは私たちの強力なパートナーとなりつつありますが、その能力を過信せず、限界を理解した上で賢く利用していくことが大切です。AIの成長を温かく見守りつつ、時にはその「人間らしい」一面に驚かされながら、上手に付き合っていきましょう。