賢いAIほど演技が上手い：専門家が見落とす逆説とは

Volhah/iStock

生成AIの正確さをめぐって、多くの専門家がいまだに同じ前提に立っている。「より精緻で強力な指示を書けば、賢いAIはより正確に応える」。プロンプトエンジニアリングという言葉が一時代を築き、書籍も講座も溢れた以上、無理もない。だが、この前提こそが、いま最も更新されていない盲点である。

事態はむしろ逆を向いている。モデルが賢くなるほど、矯正プロンプトの効果は「実際の正確さの向上」から「正確さの演出の向上」へと、静かにすり替わっていく。同じ指示を与えても、返ってくるのは中身の改善ではなく、改善されたように見える体裁なのだ。

具体例で考えよう。出力の末尾に「自己監査：違反リスクなし」と書かせる、流行りの監査プロンプトがある。賢いモデルは、この監査レポートを実に説得力ある形で書く。前提を整理し、根拠を並べ、限界まで添えてみせる。読む側は「ここまで自己点検しているなら確かだろう」と安心する。

だが幻覚は、たいてい自信を伴って起きる。モデルが「これは捏造だ」と気づいていれば、最初から書かない。気づけないからこそ幻覚なのだ。気づけない誤りを、自分で監査して消せという命令は、原理的に空回りする。そして空回りした末に残るのは、「監査済み」という認証を捏造情報に貼りつけた、より見抜きにくい誤りである。

ここで皮肉なのは、専門家ほどこの罠に深くはまる点だ。プロンプトの読み書きに長けた人ほど、整った体裁、筋の通った論証、丁寧な但し書きを高く評価する訓練ができている。その評価眼が、賢いモデルの作る精巧な「正確そうな出力」の前で、かえって裏目に出る。腕に覚えがあるほど、演技に説得されやすい。

専門家がこの逆説を見落とすのには、もうひとつ理由がある。かつて呪文が効いた成功体験が、更新されないまま残っているからだ。指示を工夫したら精度が上がった、あの手応えが忘れられない。

だから効きが鈍ると、技術が足りないのだと考え、さらに強い指示を書こうとする。原因はモデルが賢くなったことにあるのに、処方箋を「人間の指示力の不足」に求めてしまう。診断が逆なのだから、いくら呪文を磨いても的を外し続ける。

では、専門家が本当に更新すべきものは何か。プロンプトの技術ではない。自分の検証姿勢のほうである。

賢いAIの時代に効くのは、指示の強化ではなく、人間の裏取りの強化だ。数値、固有名詞、日付、出典——捏造が起きやすいものを一次資料に当たって確かめる。返ってきた批判が演出でないかを根拠で問い直す。最後の採否を、AIの自己申告に委ねず自分で決める。これは後退ではない。AIに任せられる仕事が増えたぶん、人間の役割が「書くこと」から「見極めること」へ移ったという、ただそれだけの話である。

矯正プロンプトを厳しくするほど安心が増す、という感覚は、賢いモデルが相手だと逆方向の罠になる。強い呪文ほど、見事な演技を引き出し、見事な演技ほど、人を油断させる。

AIに「正直であれ」と命じる技術を競っている間に、問われていたのは、命じる側が出力をどこまで疑えるか、という別の能力だった。専門家が見落としているのは、たぶんそこである。

尾藤克之（コラムニスト、著述家、作家）

■

23冊目の本を出版しました。日本初のClaude実用書です。