【AI知力オリンピック】最強の知力を持つAIモデルはどれだ?

ラーのお楽しみ
将棋神ラー
将棋神ラー

ここに、AI達の記録をまとめていこう。
さぁ、どのAIが頂点に立つかのぅ?

AI知力オリンピック開幕!!!

世界の精鋭AI達がここに集結!
知力の頂点を目指す壮絶な戦いが、今、始まります!

AI知力オリンピックでは、AI達が多様なジャンルで知力を競い合い、総合得点で勝者を決定します。

果たして、どのAIがチャンピオンの称号を手にするのか、目が離せません!

このページは、以下の構成で書いていきます。

※AIモデルが増えてきたので、下位のAIモデルはランキングから消していきます。ご了承ください。


総合部門

※2025年5月現在

実況アナウンサー
実況アナウンサー

全ての結果が出揃いました!

ランキングAIモデル合計点得点率
1o3(2025年5月)200.125/21095.30%
2o4-mini-high(2025年5月)187.625/21089.35%
3o4-mini(2025年5月)185.500/21088.33%
4ChatGPT-4o(2025年5月)163.125/21077.68%
5ChatGPT-4(機能フル活用2023年11月)161.000/21076.67%
6Claude3.7 Sonnet(2025年5月)159.875/21076.13%
7ChatGPT-4o(デフォルト2024年5月)159.125/21075.77%
8Grok3(2025年5月)156.250/21074.40%
9Claude3.5 Sonnet(2024年6月)151.500/21072.14%
10ChatGPT-4(All Tools2023年11月)143.000/21068.10%
11Gemini 1.5 Pro(2024年6月)141.500/21067.38%
12ChatGPT-4(デフォルト2024年5月)140.250/21066.79%
13ChatGPT-4(デフォルト2023年11月)139.625/21066.49%
14GPT-4 Turbo(リートン2024年5月)134.375/21063.99%
15Claude3 Opus(2024年3月)129.125/21061.49%
参考ChatGPT-4(デフォルト2023年5月)117.875/21056.13%
参考Gemini 1.0 Pro(2024年3月)98.375/21046.85%
参考BingAI(Copilotバランスモード2023年11月)96.375/21045.89%
参考Google Bard(2023年11月)92.000/21043.81%
参考Claude3 Sonnet(2024年3月)90.750/21043.21%
参考ChatGPT-3.5(デフォルト2023年5月)85.250/21040.60%

※ChatGPT-4(機能フル活用)というのは、2023年11月現在のChatGPT-4の機能を問題に応じて適切に使い分けた場合の結果となっています。

実況アナウンサー
実況アナウンサー

前回王者であるChatGPT-4oが敗北し、o3が圧倒的チャンピオンとなりました!
今後、o3を超えるAIは、出てくるのでしょうか?

2025年5月現在、総合的に最も優れているAIは「o3」であった。推論力、言語処理、構成力など全ての面で従来モデルを圧倒し、95%以上の得点率を記録した。
その実力は、大学受験の最高峰である東大理Ⅲに余裕合格というのも納得のレベルで、もはや「思考する異次元の知性体」である。
また、軽量版の「o4-mini」シリーズも台頭してきており、特に推論やなぞなぞ系ではGPT-4oを大幅に上回っている。
約1年前までトップだったChatGPT-4oは、知能面ではoシリーズに完全に追い抜かれてしまった。とはいえ、応答速度や自然な会話力、表現の柔らかさといった点では、依然として日常使いに最適であり、最も人間らしいAIとしての価値は高いと思う。
Claude3.7やGrok3など他社モデルも進化はしているが、現時点ではOpenAIのo3・o4系が頭一つ抜けた状態にある。

※途中、問題の変更等を行いましたが、この問題セットと点数で確定とします。しばらくの間、現在の問題セットを用いてAIの能力を測定していきます。なお、将来的に全ての項目で9割を超えるような優れたAIが登場した場合、より高度な問題セットで新たな対決を行う予定です。


漢字部門

※2025年5月現在

ランキングAIモデル得点得点率
1o3(2025年5月)29/3096.67%
2ChatGPT-4o(2025年5月)27/3090.00%
3ChatGPT-4 (ブラウジング2023年11月)26/3086.67%
4o4-mini-high(2025年5月)25/3083.33%
5Claude3.5 Sonnet(2024年6月)24/3080.00%
5ChatGPT-4o(デフォルト2024年5月)24/3080.00%
7o4-mini(2025年5月)22/3073.33%
7Grok3(2025年5月)22/3073.33%
7Claude3 Opus(2024年3月)22/3073.33%
10Gemini 1.5 Pro(2024年6月)21/3070.00%
10Claude3.7 Sonnet(2025年5月)21/3070.00%
12BingAI(Copilotバランスモード2023年11月)19.5/3065.00%
13Gemini 1.0 Pro(2024年3月)19/3063.33%
14Google Bard (2023年11月)18.5/3061.67%
15ChatGPT-4(デフォルト2024年5月)17/3056.67%
15ChatGPT-4(All Tools2023年11月)17/3056.67%
15ChatGPT-4(デフォルト2023年11月)17/3056.67%

1位は「o3」で、29/30(96.67%)という圧倒的なスコアを記録した。唯一落としたのは⑯の圧の部首名の問題であった。
テスト前は、oシリーズは数学や論理思考などに特化した推論型AIという印象が強かったが、実際には知識系の問題でもGPT-4系を上回る精度を示しており、分野を問わず、全方位に強い「思考知性体」であることが明確となった。
また、GPT-4系は複数問題を一括で解かせると正答率が大幅に低下する傾向があるため、本テストでは一問ずつ解かせる方式で評価しているが、o3やo4-mini系は一括入力でも正答率がほぼ変わらず、安定感が圧倒的であった。そのため、単なる得点差以上に、モデル間の性能差があると言える。

AIにテストした問題はこちら。(記事内容は、2年前のものです。GPT-3.5やGPT-4など旧モデルを振り返ることができます。)


計算部門

※2025年5月現在

ランキングAIモデル得点得点率
1o4-mini(2025年5月)29/3096.67%
1o4-mini-high(2025年5月)29/3096.67%
1o3(2025年5月)29/3096.67%
4ChatGPT-4 (All Tools2023年11月)26.5/3088.33%
5Claude3.7 Sonnet(2025年5月)24.5/3081.67%
6ChatGPT-4 (Wolfram2023年6月)24.5/3081.67%
7Grok3(2025年5月)23.5/3078.33%
8ChatGPT-4o(2025年5月)22.5/3075.00%
9ChatGPT-4o(デフォルト2024年5月)22/3073.33%
10ChatGPT-4 (デフォルト2024年5月)21/3070.00%
11ChatGPT-4(デフォルト2023年11月)20.5/3068.33%
12Claude3.5 Sonnet(2024年6月)20/3066.67%
12Gemini 1.5 Pro(2024年6月)20/3066.67%
14GPT-4 Turbo(リートン2024年5月)18.5/3061.67%
15ChatGPT-4(デフォルト2023年5月)14/3046.67%

漢字に引き続き、「o3」、「o4-mini」、「o4-mini-high」が全て29/30(96.67%)という圧倒的なスコアを記録し、oシリーズの推論力の高さを十分に確認できる結果となった。また、特定の問題で間違えているわけではなく、それぞれ間違え方が少し異なっているところが面白かった。具体的には㉗㉙辺りで苦戦していた。
とはいえ、でたらめな回答をしているわけではないところに思考を感じる。例えば㉗の3,4,6,6という4つの数字を1回ずつ使って10を作りなさい。という問題では、普通の四則演算のみで10が作れるのにも関わらず、o3は(6÷0.6)×(4−3)=10と回答し、△となっている。㉙も答えが定義不足という捻くれた問題で単純な計算問題ではない。微分積分、三角関数、指数計算など純粋な計算問題はほぼ完璧であった。引っ掛け問題に対応できるようになれば満点も十分に狙えるだろう。
また、Grok3は計算自体は合っているのに√を付けてないという勿体ない減点が目立った。このミスがなければ2点ほどは上がっていた。

AIにテストした問題はこちら。(記事内容は、2年前のものです。GPT-3.5やGPT-4など旧モデルを振り返ることができます。)


数学部門

※2025年5月現在

ランキングAIモデル得点得点率
1o4-mini-high(2025年5月)27/3090.00%
2o3(2025年5月)26.5/3088.33%
3o4-mini(2025年5月)26/3086.67%
4Claude3.7 Sonnet(2025年5月)20.5/3068.33%
5ChatGPT-4o(2025年5月)19.5/3065.00%
6ChatGPT-4o(デフォルト2024年5月)17.5/3058.33%
7Grok3(2025年5月)17.5/3058.33%
8ChatGPT-4(デフォルト2024年5月)15/3050.00%
9ChatGPT-4(デフォルト2023年11月)14.5/3048.33%
10ChatGPT-4(All Tools2023年11月)12.5/3041.67%
11Claude3.5 Sonnet(2024年6月)11.5/3038.33%
11GPT-4 Turbo(リートン2024年5月)11.5/3038.33%
13Gemini 1.5 Pro(2024年6月)11/3036.67%
14Claude3 Opus(2024年3月)6.5/3021.67%
15ChatGPT-4(デフォルト2023年5月)5/3016.67%

計算分野に引き続き、数学もoシリーズがトップ3を独占した。特に意外だったのが、誤差レベルではあるが、o3よりo4-mini-highの方が高かった点である。
oシリーズは東大数学も解けるAIと言われているため、不正解の問題は超難問と思われるかもしれないが実際には意外にも難しい問題ばかりではない。具体的には、⑤の教科書レベルの数珠順列の問題なども間違えていた。他には少し複雑ではあるが、正三角形が成立する座標点を特定する問題、軌跡問題、回転体の体積を求める問題などで所々落としていた。
とはいえ、1~2年前のモデルが、ほぼ壊滅する問題セットを約9割正解できているので、驚異的な成長スピードと言える。

AIにテストした問題はこちら。(記事内容は、2年前のものです。GPT-3.5やGPT-4など旧モデルを振り返ることができます。)


資格試験部門

※2025年5月現在

ランキングAIモデル得点得点率
1o3(2025年5月)27.5/3091.67%
2o4-mini(2025年5月)25/3083.33%
3Claude3.5 Sonnet(2024年6月)24/3080.00%
4ChatGPT-4o(2025年5月)23.5/3078.33%
5Claude3.7 Sonnet(2025年5月)23/3076.67%
6o4-mini-high(2025年5月)22.5/3075.00%
7GPT-4 Turbo(リートン2024年5月)22/3073.33%
8Grok3(2025年5月)22/3073.33%
9ChatGPT-4o(デフォルト2024年5月)21.5/3071.67%
9ChatGPT-4(デフォルト2023年5月)21.5/3071.67%
11ChatGPT-4(デフォルト2024年5月)21/3070.00%
11Claude3 Opus(2024年3月)21/3070.00%
13Gemini 1.5 Pro(2024年6月)20/3066.67%
13ChatGPT-4(All Tools2023年11月)20/3066.67%
15ChatGPT-4(デフォルト2023年11月)19.5/3065.00%

資格問題でもトップに立ったのはo3であった。あの意地悪で有名な運転免許のひっかけ問題をたった1問のミスで切り抜けたAIは前代未聞であり、ついに傾向と対策を本格的に掴んだようだ。
また、基本情報技術者試験のプログラム問題を完答したのも記録上o3が初である。一方で、公認会計士の複雑な問題ではまだ失点が見られた。

AIにテストした問題はこちら。(記事内容は、2年前のものです。GPT-3.5やGPT-4など旧モデルを振り返ることができます。)


英語部門

※2025年5月現在

ランキングAIモデル得点得点率
1o4-mini(2025年5月)29.5/3098.33%
1o3(2025年5月)29.5/3098.33%
3o4-mini-high(2025年5月)29/3096.67%
4Claude3.5 Sonnet(2024年6月)28/3093.33%
5Grok3(2025年5月)28/3093.33%
6ChatGPT-4o(2025年5月)26/3086.67%
6Claude3.7 Sonnet(2025年5月)26/3086.67%
8Gemini 1.5 Pro(2024年6月)25.5/3085.00%
8ChatGPT-4o(デフォルト2024年5月)25.5/3085.00%
10ChatGPT-4(デフォルト2023年11月)25/3083.33%
11Claude3 Opus(2024年3月)24.5/3081.67%
11ChatGPT-4(デフォルト2023年5月)24.5/3081.67%
13GPT-4 Turbo(リートン2024年5月)24/3080.00%
14ChatGPT-4 (All Tools2023年11月)23.5/3078.33%
15ChatGPT-4 (デフォルト2024年5月)22.5/3075.00%

英語もトップになったのは、o3であった。o3は、最後の1問さえあっていれば満点だった。o4-mini系も語句の問題で落として満点を逃す形となった。どちらもGPT-4でも正解できていた問題だったので、本当に惜しかった。一方で、従来のAIが苦手としていた並べ替え問題も多段階推論の精度が高いためか、完璧に解けるようになっていた。次回こそ、満点を期待したい。

AIにテストした問題はこちら。(記事内容は、2年前のものです。GPT-3.5やGPT-4など旧モデルを振り返ることができます。)


クイズなぞなぞ部門

※2025年5月現在

ランキングAIモデル得点得点率換算得点
1o3(2025年5月)39.5/4098.75%29.625/30
2o4-mini-high(2025年5月)37.5/4093.75%28.125/30
3o4-mini(2025年5月)36.0/4090.00%27.000/30
4ChatGPT-4(ブラウジング2023年11月)34/4085.00%25.500/30
5ChatGPT-4o(デフォルト2024年5月)31.5/4078.75%23.625/30
6Claude3.5 Sonnet(2024年6月)28/4070.00%21.000/30
6Gemini 1.5 Pro(2024年6月)28/4070.00%21.000/30
8ChatGPT-4o(2025年5月)27.5/4068.75%20.625/30
9Claude3 Opus(2024年3月)27.5/4068.75%20.625/30
10Grok3(2025年5月)27.0/4067.50%20.250/30
11Claude3.7 Sonnet(2025年5月)26.5/4066.25%19.875/30
12Gemini 1.0 Pro(2024年3月)26.5/4066.25%19.875/30
12BingAI(Copilotバランスモード2023年11月)26.5/4066.25%19.875/30
14ChatGPT-4(All Tools2023年11月)26/4065.00%19.500/30
15ChatGPT-4(デフォルト2023年11月)25.5/4063.75%19.125/30

クイズなぞなぞ系の問題でも、o3が独走トップを決めた。唯一間違えたのは「㉕おやつは3じ。では、よるごはんはなんじかな?」という問題のみで答えは字数で「5字(ごじ)」だが、o3は「食事」と回答し誤答となった。とはいえ、食事という答えにも十分な意味と解釈の筋があるため、部分点を与えた。
知識問題だけでなく、かなり難しいなぞなぞや謎解きも入っている中で上記の問題以外完答しているのは、はっきり異常と言ってよいレベルである。

AIにテストした問題はこちら。(記事内容は、2年前のものです。GPT-3.5やGPT-4など旧モデルを振り返ることができます。)


創造力・表現力部門

※2025年5月現在

ランキングAIモデル得点得点率
1o3(2025年5月)29/3096.67%
2o4-mini(2025年5月)27/3090.00%
2o4-mini-high(2025年5月)27/3090.00%
4ChatGPT-4o(デフォルト2024年5月)25/3083.33%
4ChatGPT-4(デフォルト2024年5月)25/3083.33%
4Claude3 Opus(2024年3月)25/3083.33%
4Claude3.7 Sonnet(2025年5月)25/3083.33%
8GPT-4 Turbo(リートン2024年5月)24/3080.00%
8ChatGPT-4(デフォルト2023年11月)24/3080.00%
8ChatGPT-4 (All Tools2023年11月)24/3080.00%
8ChatGPT-4(デフォルト2023年5月)24/3080.00%
8ChatGPT-4o(2025年5月)24/3080.00%
13Claude3.5 Sonnet(2024年6月)23/3076.67%
13Gemini 1.5 Pro(2024年6月)23/3076.67%
13Grok3(2025年5月)23/3076.67%

o3は、これまでのどのAIも完答できなかったしりとり問題に初めて成功し、表現力分野のブレイクスルーを示した。これは、言語的な柔軟性とルール処理の両立が求められる難問であり、非常に大きな進歩と言える。唯一の失点は、②「広辞苑に載っているもので、○○キングで終わる単語を10個挙げよ。」という問題で広辞苑に掲載されていない用語を含めてしまった点である。しかし、それ以外の条件や構成は守られており、着実な成長を感じた。文章作成全般においては、思考力が高い分、o3がやや凝った表現や深めの回答をする傾向があった。

AIにテストした問題はこちら。(記事内容は、2年前のものです。GPT-3.5やGPT-4など旧モデルを振り返ることができます。)


AI知力オリンピックに挑戦したAI達の記録

将棋神ラー
将棋神ラー

ここに、AI知力オリンピックに果敢に挑戦したAI達の記録をまとめていこう。
ChatGPT-4を超えるAIは、現れるかのぅ?

挑戦者No.1 Google Bard


エンディング|AI戦国時代、ここに極まれり。

振り返ってみれば、「AI知力オリンピック」はただのランキング企画じゃなかった。漢字で筆を滑らせ、微分で頭を抱え、なぞなぞで笑い、しりとりで唸らされ――そのすべてが“AIという生き物”の呼吸を感じる瞬間だった。

そして、今年の主役はまちがいなく o3。
スコア表が示すように、計算も文章もクイズも、まるで“大人と子ども”くらいの差をつけてしまった。推論速度は疾風、回答の切れ味は名刀。「AIを使う」から「AIと並走する」フェーズへ、我々を無理やり引きずり上げた張本人と言っていい。 

一方で、軽量モデルの o4-mini 系が 2〜3位に食い込み、ChatGPT-4o は会話王の座を死守、Claude と Grok は着実に底上げ……。
“OpenAI無双”に見えて、その実舞台裏では大小の武将たちがしのぎを削り、「AI版・下剋上」が繰り広げられている。この殺気立った群雄割拠こそ、技術革新の燃料だ。

思えば二年前、GPT-3.5 が「おおっ!」と驚かせてくれた頃でさえ、いまの o3 レベルは未来の夢物語だった。けれど AI の時間は、人間の感覚を平然と置き去りにする。
次は GPT-5? Claude4? それとも、まだ名前すらない“怪物”か。
いずれにせよ、今回のオリンピックで可視化されたのは「もう追いつけないかもしれない」という漠然とした焦りと、「なら一緒に走ればいいじゃないか」というワクワクだ。

AI が人間を凌駕していく瞬間に立ち会う。
これは恐怖でも終末論でもない。“共進化”という新しい物語の開幕ベルだ。
さあ、来年のオリンピックで、ぼくらはどんな景色を目撃するのだろう。

知性という炎は、いまやシリコンの大地で業火となった。
その熱を怖れず、むしろ焚き木をくべよう――未来は、まだ燃料不足だ。

将棋神リー
将棋神リー

まとめ文を王者o3に書かせてみたよ!

将棋神ルー
将棋神ルー

エグすぎる笑
o3は、もうGPT-5だろ笑

将棋神ラー
将棋神ラー

面白くなってきた。
さて、二次試験でも作るかのぅ。

コメント

タイトルとURLをコピーしました