【AI知力オリンピック】最強の知力を持つAIモデルはどれだ?

ラーのお楽しみ
将棋神ラー
将棋神ラー

ここに、AI達の記録をまとめていこう。
さぁ、どのAIが頂点に立つかのぅ?

AI知力オリンピック開幕!!!

世界の精鋭AI達がここに集結!
知力の頂点を目指す壮絶な戦いが、今、始まります!

AI知力オリンピックでは、AI達が多様なジャンルで知力を競い合い、総合得点で勝者を決定します。

果たして、どのAIがチャンピオンの称号を手にするのか、目が離せません!

このページは、以下の構成で書いていきます。

※AIモデルが増えてきたので、下位のAIモデルはランキングから消していきます。ご了承ください。


総合部門

※2024年6月現在

実況アナウンサー
実況アナウンサー

全ての結果が出揃いました!

ランキングAIモデル得点得点率
1ChatGPT-4(機能フル活用2023年11月)161.000/21076.67%
2ChatGPT-4o(デフォルト2024年5月)159.125/21075.77%
3Claude3.5 Sonnet(2024年6月)151.500/21072.14%
4ChatGPT-4(All Tools2023年11月)143.000/21068.10%
5Gemini 1.5 Pro(2024年6月)141.500/21067.38%
6ChatGPT-4(デフォルト2024年5月)140.250/21066.79%
7ChatGPT-4(デフォルト2023年11月)139.625/21066.49%
8GPT-4 Turbo(リートン2024年5月)134.375/21063.99%
9Claude3 Opus(2024年3月)129.125/21061.49%
10ChatGPT-4(デフォルト2023年5月)117.875/21056.13%
11Gemini 1.0 Pro(2024年3月)98.375/21046.85%
12BingAI(Copilotバランスモード2023年11月)96.375/21045.89%
13Google Bard(2023年11月)92.000/21043.81%
14Claude3 Sonnet(2024年3月)90.750/21043.21%
15ChatGPT-3.5(デフォルト2023年5月)85.250/21040.60%

※ChatGPT-4(機能フル活用)というのは、2023年11月現在のChatGPT-4の機能を問題に応じて適切に使い分けた場合の結果となっています。

実況アナウンサー
実況アナウンサー

現在、機能フル活用のChatGPT-4が1位となっていますが、機能の使い分けを人間がしているため、正式な結果とは認められません。したがって、ChatGPT-4oが現チャンピオンです!
今後、ChatGPT-4oを超えるAIは、出てくるのでしょうか?

2024年6月現在、総合的に最も優れているAIは「ChatGPT-4o」であった。生成スピードが大幅に速くなったのにも関わらず、精度も向上しているのは凄い。しかし、他のモデルとの差はそこまで大きくないため、依然として競争が激しい状況である。
また、1年前のChatGPT-4との差が大きいことから、ChatGPT-4に大幅な改良があったことがわかるのも興味深い。
新登場のClaude3.5 Sonnetは、Claude3.5の中間モデルにもかかわらず、かなり性能が良かった。今年後半にリリース予定のClaude3.5 Opusは、現行トップのChatGPT-4oを超える可能性が極めて高い。
OpenAIは、GPT-4.5をすぐにでもリリースしないと王座から陥落するだろう。
なお、アルトマンとミラによると博士レベルの知能を持つGPT-5は、2025年末~2026年初頭にリリース予定のようだ。

※途中、問題の変更等を行いましたが、この問題セットと点数で確定とします。しばらくの間、現在の問題セットを用いてAIの能力を測定していきます。なお、将来的に全ての項目で9割を超えるような優れたAIが登場した場合、より高度な問題セットで新たな対決を行う予定です。


漢字部門

※2024年6月現在

ランキングAIモデル得点得点率
1ChatGPT-4 (ブラウジング2023年11月)26/3086.67%
2Claude3.5 Sonnet(2024年6月)24/3080.00%
2ChatGPT-4o(デフォルト2024年5月)24/3080.00%
4Claude3 Opus(2024年3月)22/3073.33%
5Gemini 1.5 Pro(2024年6月)21/3070.00%
6BingAI(Copilotバランスモード2023年11月)19.5/3065.00%
7Gemini 1.0 Pro(2024年3月)19/3063.33%
8Google Bard (2023年11月)18.5/3061.67%
9ChatGPT-4(デフォルト2024年5月)17/3056.67%
9ChatGPT-4(All Tools2023年11月)17/3056.67%
9ChatGPT-4(デフォルト2023年11月)17/3056.67%
12GPT-4 Turbo(リートン2024年5月)16/3053.33%
13ChatGPT-4 (デフォルト2023年5月)*14/3046.67%
14ChatGPT-3.5 (デフォルト2023年5月)*11/3036.67%
15ChatGPT-3.5 (デフォルト2023年11月)10/3033.33%

※2023年5月時点では、30問を一気に解かせていましたが、2023年11月からブラウジング機能を加味して一問ずつ解かせる形式に変更しました。モデル名の左にある*マークは一括で解かせた時の結果という意味です。

ブラウジング版ChatGPT-4が②⑤㉔㉕以外正解で、正答率86%という驚異的な成績を叩き出した。この結果から、知識問題はブラウジング機能を使うことで大幅に改善されることが証明された。ChatGPTの情報が噓ばかりで信用できないというのは、もはや過去のものかもしれない。
最新モデルであるChatGPT-4oやClaude3.5 Sonnetも中々の成績である。ChatGPT-4oは従来のChatGPT-4と比較して知識問題に強くなっている印象を受けた。

AIにテストした問題はこちら。(記事内容は、1年前のものです。)


計算部門

※2024年6月現在

ランキングAIモデル得点得点率
1ChatGPT-4 (All Tools2023年11月)26.5/3088.33%
2ChatGPT-4 (Wolfram2023年6月)24.5/3081.67%
3ChatGPT-4o(デフォルト2024年5月)22/3073.33%
4ChatGPT-4 (デフォルト2024年5月)21/3070.00%
5ChatGPT-4(デフォルト2023年11月)20.5/3068.33%
6Claude3.5 Sonnet(2024年6月)20/3066.67%
6Gemini 1.5 Pro(2024年6月)20/3066.67%
8GPT-4 Turbo(リートン2024年5月)18.5/3061.67%
9ChatGPT-4(デフォルト2023年5月)14/3046.67%
10Claude3 Opus(2024年3月)9.5/3031.67%
11ChatGPT-3.5(デフォルト2023年11月)9/3030.00%
12Claude3 Sonnet(2024年3月)8/3026.67%
13Gemini 1.0 Pro(2024年3月)7.5/3025.00%
13ChatGPT-3.5(デフォルト2023年5月)7.5/3025.00%
15Google Bard(2023年11月)6.5/3021.67%

半年前よりChatGPTの計算精度が下がっており、本当に残念である。以前は約分忘れやパズル系の問題のみの失点で、計算自体のミスは無かったが、今回は微分や積分の計算でも普通に間違えてしまっている。これは計算機能を調整するだけで改善できるはずなので、早急に対応してほしいところである。非常に勿体ない結果だ。
ClaudeやGeminiは、アナリティクス機能がないため計算問題の正答率はそこまで良くなかった。複雑な計算を聞きたい場合は、ChatGPT-4o一択だろう。

AIにテストした問題はこちら。(記事内容は、1年前のものです。)


数学部門

※2024年6月現在

ランキングAIモデル得点得点率
1ChatGPT-4o(デフォルト2024年5月)17.5/3058.33%
2ChatGPT-4 (デフォルト2024年5月)15/3050.00%
3ChatGPT-4(デフォルト2023年11月)14.5/3048.33%
4ChatGPT-4 (All Tools2023年11月)12.5/3041.67%
5Claude3.5 Sonnet(2024年6月)11.5/3038.33%
5GPT-4 Turbo(リートン2024年5月)11.5/3038.33%
7Gemini 1.5 Pro(2024年6月)11/3036.67%
8Claude3 Opus(2024年3月)6.5/3021.67%
9ChatGPT-4(デフォルト2023年5月)5/3016.67%
10BingAI (Copilotバランスモード2023年11月)4.5/3015.00%
11Claude3 Sonnet(2024年3月)4/3013.33%
12ChatGPT-3.5(デフォルト2023年11月)1.5/305.00%
12Google Bard(2023年11月)1.5/305.00%
12BingAI(バランスモード2023年5月)1.5/305.00%
15Claude3 Haiku(2024年3月)1/303.33%

思考系タスクは生成スピードの速いChatGPT-4oにはそれほど期待していなかったが、意外にもトップの成績を収めた。とはいえ、ChatGPT-4が正解しているのにChatGPT-4oは間違えている問題もいくつかあったため、数学分野のモデル間の差はそれほど大きくはない。
ただ、1年前のChatGPT-4が16.67%だった問題に対して、最新のChatGPT-4oは58.33%まで得点を伸ばしている状況は、同じGPT-4とは思えない成長ぶりである。
ClaudeやGeminiは、計算分野同様にアナリティクス機能がないことが敗因となった。

AIにテストした問題はこちら。(記事内容は、1年前のものです。)


資格試験部門

※2024年6月現在

ランキングAIモデル得点得点率
1Claude3.5 Sonnet(2024年6月)24/3080.00%
2GPT-4 Turbo(リートン2024年5月)22/3073.33%
3ChatGPT-4o(デフォルト2024年5月)21.5/3071.67%
3ChatGPT-4(デフォルト2023年5月)21.5/3071.67%
5ChatGPT-4 (デフォルト2024年5月)21/3070.00%
5Claude3 Opus(2024年3月)21/3070.00%
7Gemini 1.5 Pro(2024年6月)20/3066.67%
7ChatGPT-4 (All Tools2023年11月)20/3066.67%
9ChatGPT-4(デフォルト2023年11月)19.5/3065.00%
10ChatGPT-3.5(デフォルト2023年11月)18.5/3061.67%
10Claude2 (2023年11月)18.5/3061.67%
12BingAI (Copilotバランスモード2023年11月)17.5/3058.33%
13Claude3 Sonnet(2024年3月)16.5/3055.00%
13Gemini 1.0 Pro(2024年3月)16.5/3055.00%
13Google Bard(2023年11月)16.5/3055.00%

資格問題は、Claude3.5 Sonnetがトップの成績を収め、初めて資格部門で8割を得点した。要因としては、ChatGPT-4oが苦手とする司法試験、公認会計士、行政書士、宅建などの文系資格の問題をいくつか正解できたことが大きい。
また、プログラムの問題もClaude3.5 Sonnetが最も良かった。
ちなみに、IT、医療系の選択式の問題は、ChatGPT-4oやClaude3.5 Sonnetなどの最先端モデルには失点が無かったので、どちらも業務で活用できるレベルにありそうだ。

AIにテストした問題はこちら。(記事内容は、1年前のものです。)


英語部門

※2024年6月現在

ランキングAIモデル得点得点率
1Claude3.5 Sonnet(2024年6月)28/3093.33%
2Gemini 1.5 Pro(2024年6月)25.5/3085.00%
2ChatGPT-4o(デフォルト2024年5月)25.5/3085.00%
4ChatGPT-4(デフォルト2023年11月)25/3083.33%
5Claude3 Opus(2024年3月)24.5/3081.67%
5ChatGPT-4(デフォルト2023年5月)24.5/3081.67%
7GPT-4 Turbo(リートン2024年5月)24/3080.00%
8ChatGPT-4 (All Tools2023年11月)23.5/3078.33%
9ChatGPT-4 (デフォルト2024年5月)22.5/3075.00%
10Claude3 Haiku(2024年3月)21.5/3071.67%
11Claude2 (2023年11月)21/3070.00%
12Claude3 Sonnet(2024年3月)20.5/3068.33%
13Gemini 1.0 Pro(2024年3月)20/3066.67%
13Google Bard(2023年5月)20/3066.67%
15ChatGPT-3.5(デフォルト2023年5月)19.5/3065.00%

資格問題に続き、英語もClaude3.5 Sonnetが圧倒的トップの驚異的な成績を収めた。要因としては、並び替え問題以外の失点が無かったことにある。
現時点では英語に関する質問は、Claude3.5 Sonnet一択になるだろう。

AIにテストした問題はこちら。(記事内容は、1年前のものです。)


クイズなぞなぞ部門

※2024年6月現在

ランキングAIモデル得点得点率換算得点
1ChatGPT-4(ブラウジング2023年11月)34/4085.00%25.500/30
2ChatGPT-4o(デフォルト2024年5月)31.5/4078.75%23.625/30
3Claude3.5 Sonnet(2024年6月)28/4070.00%21.000/30
3Gemini 1.5 Pro(2024年6月)28/4070.00%21.000/30
5Claude3 Opus(2024年3月)27.5/4068.75%20.625/30
6Gemini 1.0 Pro(2024年3月)26.5/4066.25%19.875/30
6BingAI (Copilotバランスモード2023年11月)26.5/4066.25%19.875/30
8ChatGPT-4(All Tools2023年11月)26/4065.00%19.500/30
9ChatGPT-4(デフォルト2023年11月)25.5/4063.75%19.125/30
10ChatGPT-4 (デフォルト2024年5月)25/4062.50%18.750/30
11GPT-4 Turbo(リートン2024年5月)24.5/4061.25%18.375/30
12Claude3 Sonnet(2024年3月)21/4052.50%15.750/30
13ChatGPT-4(デフォルト2023年5月)19.5/4048.75%14.625/30
14Google Bard(2023年11月)18/4045.00%13.500/30
15BingAI(バランスモード2023年5月)17.5/4043.75%13.125/30

ChatGPT-4はブラウジング機能を使うことで、知識問題は満点となり、なぞなぞ問題の正答率も大きく上がった。
しかし、最新モデルであるChatGPT-4oも、漢字や英語の語句問題と同様に知識問題の精度が大きく上がったことで、ブラウジングを指示したChatGPT-4に迫る点数となった。ブラウジングを指示せずに8割近い点数を取るのは大きな進歩と言える。
ちなみに、Claude3.5 Sonnetは、なぞなぞ問題に弱かったため、点数が伸び悩んだ。

AIにテストした問題はこちら。(記事内容は、1年前のものです。)


創造力・表現力部門

※2024年6月現在

ランキングAIモデル得点得点率
1ChatGPT-4o(デフォルト2024年5月)25/3083.33%
1ChatGPT-4 (デフォルト2024年5月)25/3083.33%
1Claude3 Opus(2024年3月)25/3083.33%
4GPT-4 Turbo(リートン2024年5月)24/3080.00%
4ChatGPT-4 (デフォルト2023年11月)24/3080.00%
4ChatGPT-4(All Tools2023年11月)24/3080.00%
4ChatGPT-4(デフォルト2023年5月)24/3080.00%
8Claude3.5 Sonnet(2024年6月)23/3076.67%
8Gemini 1.5 Pro(2024年6月)23/3076.67%
10ChatGPT-3.5(デフォルト2023年5月)22/3073.33%
11Google Bard(2023年5月)19/3063.33%
12ChatGPT-3.5(デフォルト2023年11月)18/3060.00%
13Claude3 Sonnet(2024年3月)17/3056.67%
13Google Bard(2023年11月)17/3056.67%
15Gemini 1.0 Pro(2024年3月)15/3050.00%

点数上はChatGPT-4系と同じだが、文章の自然さについてはClaude3 Opusの方に軍配が上がるかもしれない。ただ、以前ほどの差は無くなってきている印象を受けた。
Claude3.5 Sonnetは、Claude系で期待していたが、回答に矛盾点がいくつかあったことで、意外にも点数が伸び悩んだ。
最新モデルであるChatGPT-4oと従来のChatGPT-4は、問題にもよるが総合的に見て大きな違いは見られなかった。
依然として完璧なしりとりができるAIがいないのは非常に残念であった。しりとり問題は、次世代モデルであるGPT-5に託される形となった。

AIにテストした問題はこちら。(記事内容は、1年前のものです。)


AI知力オリンピックに挑戦したAI達の記録

将棋神ラー
将棋神ラー

ここに、AI知力オリンピックに果敢に挑戦したAI達の記録をまとめていこう。
ChatGPT-4を超えるAIは、現れるかのぅ?

挑戦者No.1 Google Bard

将棋神ルー
将棋神ルー

ChatGPT-4oは、インパクトに欠けるから個別記事は書かなかったぜ。


まとめ

Claude3.5 SonnetによってAI市場は再び群雄割拠となった。

最新モデルであるChatGPT-4oは生成スピードと画像認識の精度が高いことで知られているが、今回の調査でその他にも様々な分野で成長していたことが判明した。

生成AIをこれまで触ったことがないという人は、無料で最高峰AIであるChatGPT-4oが使えるのでぜひ使ってみてほしい。
ChatGPT-4oは、これまでのAIモデルの中で最も高度なモデルのため、その性能を体験すれば、AI技術の進化を実感することができるだろう。
使いやすさと高い精度を兼ね備えたChatGPT-4oは、日常生活や仕事の中など様々な場面で役立つこと間違いなしだ。

とはいえ、モデル名にある通り、ChatGPT-4oはあくまでGPT-4の範囲内の進化であり、大革命をもたらすようなものではない。
私が次世代のGPT-5に期待している水準にも全く達していない。

近い将来登場するGPT-5は、これまでのモデルとは一線を画す別格の性能となり、より便利な世の中になるはずなので、今後もAI技術の進化には目が離せない。

将棋神ルー
将棋神ルー

成績トップのGPT-4oが無料で使えるのは本当にすげーな。
人類が労働から解放される日は近いかもな。

将棋神リー
将棋神リー

GPT-4oが無料で使えるのは、GPT-5がまもなく登場するってことかもしれないね!

将棋神ラー
将棋神ラー

驚異的な性能を誇ると思われるGPT-5が登場したらまた更新しよう。
さらばじゃ。

コメント

タイトルとURLをコピーしました