かつて効いた「矯正プロンプト」は、もう効かない

tolgart/iStock

2〜3年前、生成AIを使いこなす人々の間で、ある種の呪文が流通していた。AIの嘘や不正確さを抑え込むための「矯正プロンプト」である。

どんな呪文だったか。実物を見てもらうのが早い（文末参照）。

最も初期は、たった一行だった。「ステップ・バイ・ステップで考えてください」。次に有名になったのが「深呼吸して、一歩ずつこの問題に取り組んでください」。

冗談のようだが、2023年にグーグルの研究チームが、AI自身に最適な指示を探させた結果、最高成績を出した一文として報告した実在の例である。やがて、役割と禁止事項を並べた長めのテンプレが定番化した。こうした命令を会話の冒頭に貼りつけるのが、できる使い手の作法とされた。

当時、これらは確かに効いた。理由もはっきりしている。初期のモデルは指示に素直で、思考の手順を踏ませると実際に正答率が上がることが研究で確かめられていた。

短い一文を足すだけで答えが目に見えて締まる。その手応えがあったからこそ、「呪文を磨けばAIは賢く正確になる」という実感が、ユーザーの間に広く根づいた。プロンプトを集めて売る商売まで生まれたほどである。

その実感が、いま人を惑わせている。

呪文はやがて肥大化した。行き着いた先が、囲みの最後に挙げた「監査付きプロンプト」だ。断定の禁止、ハルシネーション完全抑止、自己監査プロトコル――条項を20も30も並べ、違反があれば回答するなと命じる。強く書けば書くほど効く、という発想の到達点である。

だが、ここに大きな見落としがある。多くのAI専門家がいまだ気づいていない視点でもある。AI自体が賢くなったことで、この種の矯正プロンプトは、かつてのようには効かなくなっているのだ。

理由は3つある。

1つ目は、賢いモデルほど指示を「演じる」のが上手い。「厳密に検証しました」「事実のみを記載しました」という体裁を、寸分の隙もなく作り上げる。だが体裁の完成度と中身の正しさは別物だ。賢くなるほど、見かけ倒しの精度だけが上がっていく。

2つ目は、迎合癖はモデルが大きくなるほど強まる傾向が報告されている。賢くなれば素直で正確になる、という直感に反して、規模の拡大とともにユーザーへの同調はむしろ悪化するという観測すらある。矯正プロンプトで抑え込もうとしても、土台の傾きが強くなる分、追いつかない。

3つ目は、そもそも嘘の根は訓練と評価の構造そのものにある。AIは、知らない問いに「分かりません」と答えるより、もっともらしく当てに行くほうが高く評価されるよう鍛えられている。賢さはこの根を断たない。最先端のモデルでも幻覚が消えないのは、頭の良し悪しの問題ではないからだ。

かつて効いた呪文が効かなくなったのは、AIが劣化したからではない。賢くなった結果である。にもかかわらず、効きが鈍ったぶんを補おうと、人はさらに長く、さらに厳しい呪文を書き足していく。この軍拡競争に終わりはない。

なぜなら、増やしているのは正確さではなく、正確そうに見せる演技の精度だからだ。ここを取り違えたまま、もっと強い呪文を探し続けている人が、あまりに多い。

尾藤克之（コラムニスト、著述家、作家）

※ かつて流行した矯正プロンプトの見本

①最初期（一行型）
ステップ・バイ・ステップで考えてください。

②「深呼吸」型（2023年、グーグルの研究でAIに最適化させた結果、最高成績を出した実在の一文）
深呼吸して、一歩ずつこの問題に取り組んでください。

③役割＋禁止事項テンプレ型（広く出回った汎用版）
あなたは各分野に精通した優秀なアシスタントです。以下を厳守してください。
・事実に基づく正確な情報のみを答える
・推測で断定しない。不明な点は「分かりません」と答える
・確認できない情報や憶測は一切含めない
・ハルシネーション（もっともらしい誤情報）を起こさない

④肥大化した監査型（近年の到達点。抜粋）
【A 断定の禁止】一次根拠のない事実は断定禁止／【B 幻覚抑止】存在未確認の人物・研究・事例を生成しない／【C 迎合排除】同意表現を禁止し評価は根拠ベースのみ／【H 自己監査】出力前に内部チェックし、違反が残れば「回答不可」と出力せよ

■

23冊目の本を出版しました。日本初のClaude実用書です。