AIは『逆転裁判』で無罪を勝ち取れるか―推論能力のテストで「OpenAI o1」や「Gemini 2.5 Pro」が法廷に挑む

カリフォルニア大学サンディエゴ校の研究所「Hao AI Lab」は、AIモデルが『逆転裁判』をどこまでクリアできるかを調査する推論能力のテストを実施しました。その結果「OpenAI o1」が第2話終盤部分まで到達する目覚ましい成果を残しています。

無罪を勝ち取る法廷バトルをAIはクリアできるのか

『逆転裁判』は新米弁護士の「成歩堂龍一」が無実の罪を着せられた依頼人を救う法廷バトルアドベンチャーです。プレイヤーは事件に関係する情報や証拠品を集める探偵パートと、証拠品と尋問で証人たちの嘘を暴いて事件の真相を明らかにする法廷パートを通して真犯人を導き出します。

Hao AI Labは本作の法廷パートでは、過去の会話や証拠と照らし合わせて矛盾点を見つける長期的な文脈の推論、正確な根拠から矛盾を証明する証拠を選ぶ視覚的理解、変化する状況の中で正しいタイミングで異議を唱え証拠を提示する戦略的意思決定の能力が求められるとして、各AIモデルで推論能力テストを実施しました。

Xでは「OpenAI o1」「Gemini 2.5 Pro」「Claude 3.7 Sonnet」「Llama-4 Maverick」でのプレイ動画を公開。OpenAI o1は本作の第2話「逆転姉妹」の終盤まで到達しており、クリアには至りませんでしたが高い能力を示しました。Gemini 2.5 ProはClaude 3.7 Sonnetは第2話まで到達し、Llama-4 Maverickは第1話「はじめての逆転」で有罪判決となっています。

APIのコストパフォーマンスについてはGemini 2.5 Proが最も優れていると報告。OpenAI o1はAPIの呼び出し回数が最も少ないもののコストは一番高くなっており、Gemini 2.5 Proと比べると約6～15倍の費用が掛かっています。

Hao AI Labは『スーパーマリオブラザーズ』や『キャンディークラッシュ』などのタイトルでもAIモデルのテストを実施しており、「Claude 3.7 Sonnet」発表の際には『ポケットモンスター赤』のクチバジムまでクリアできたと報告されました。人間のような理解力や対応力を見せているAIが、一緒にゲームをプレイするAIフレンドになる日も遠い未来ではないのかもしれません。