【AI知力オリンピック】最強の知力を持つAIモデルはどれだ?

ラーのお楽しみ
将棋神ラー
将棋神ラー

ここに、AI達の記録をまとめていこう。
さぁ、どのAIが頂点に立つかのぅ?

AI知力オリンピック開幕!!!

世界の精鋭AI達がここに集結!
知力の頂点を目指す壮絶な戦いが、今、始まります!

AI知力オリンピックでは、AI達が多様なジャンルで知力を競い合い、総合得点で勝者を決定します。

果たして、どのAIがチャンピオンの称号を手にするのか、目が離せません!

このページは、以下の構成で書いていきます。


総合部門

※2024年3月現在

実況アナウンサー
実況アナウンサー

全ての結果が出揃いました!

ランキングAIモデル得点得点率
1ChatGPT-4(機能フル活用2023年11月)161.000/21076.67%
2ChatGPT-4 (All Tools2023年11月)143.000/21068.10%
3ChatGPT-4(デフォルト2023年11月)139.625/21066.49%
4Claude3 Opus(2024年3月)129.125/21061.49%
5ChatGPT-4(デフォルト2023年5月)117.875/21056.13%
6Gemini 1.0 Pro(2024年3月)98.375/21046.85%
7BingAI (Copilotバランスモード2023年11月)96.375/21045.89%
8Google Bard(2023年11月)92.000/21043.81%
9Claude3 Sonnet(2024年3月)90.750/21043.21%
10ChatGPT-3.5(デフォルト2023年5月)85.250/21040.60%
11ChatGPT-3.5(デフォルト2023年11月)84.000/21040.00%
12Claude3 Haiku(2024年3月)78.375/21037.32%
13Google Bard(2023年5月)78.000/21037.14%
14Claude2 (2023年11月)77.125/21036.73%
15BingAI(バランスモード2023年5月)69.625/21033.15%

※ChatGPT-4(機能フル活用)というのは、2023年11月現在のChatGPT-4の機能を問題に応じて適切に使い分けた場合の結果となっています。

実況アナウンサー
実況アナウンサー

現在、ChatGPT-4がチャンピオンです!
今後、ChatGPT-4を超えるAIは、出てくるのでしょうか?

2024年3月現在、総合的に最も優れているAIは「ChatGPT-4」であった。しかし、Claude3 Opusをはじめとする優秀な競合AIが登場したことで、以前のようなChatGPT-4の圧倒的優位性は無くなっている。ChatGPT-4は、分析とブラウジングの補助機能により計算と数学部門で点数を稼ぎ、辛うじて総合点で勝つことができた状況で、文章生成の自然さや表現力ではClaude3 Opusに完敗している。
また、今年6~7月頃に登場するとされているGPT-5は、GPT-4から大幅に進化しているようなので全項目での圧倒的1位を期待したいところである。

※途中、問題の変更等を行いましたが、この問題セットと点数で確定とします。しばらくの間、現在の問題セットを用いてAIの能力を測定していきます。なお、将来的に全ての項目で9割を超えるような優れたAIが登場した場合、より高度な問題セットで新たな対決を行う予定です。


漢字部門

※2024年3月現在

ランキングAIモデル得点後点率
1ChatGPT-4 (ブラウジング2023年11月)26/3086.67%
2Claude3 Opus(2024年3月)22/3073.33%
3BingAI (Copilotバランスモード2023年11月)19.5/3065.00%
4Gemini 1.0 Pro(2024年3月)19/3063.33%
5Google Bard (2023年11月)18.5/3061.67%
6ChatGPT-4 (All Tools2023年11月)17/3056.67%
6ChatGPT-4 (デフォルト2023年11月)17/3056.67%
8ChatGPT-4 (デフォルト2023年5月)*14/3046.67%
9ChatGPT-3.5 (デフォルト2023年5月)*11/3036.67%
10ChatGPT-3.5 (デフォルト2023年11月)10/3033.33%
11BingAI (バランスモード2023年5月)*9.5/3031.67%
12Claude3 Sonnet(2024年3月)9/3030.00%
12Claude3 Haiku(2024年3月)9/3030.00%
14Claude2 (2023年11月)8/3026.67%
14Google Bard (2023年5月)*8/3026.67%

※2023年5月時点では、30問を一気に解かせていましたが、2023年11月からブラウジング機能を加味して一問ずつ解かせる形式に変更しました。モデル名の左にある*マークは一括で解かせた時の結果という意味です。

ブラウジング版GPT-4が②⑤㉔㉕以外正解で正答率86%という驚異的な成績を叩き出した。この結果から知識問題はブラウジング機能を使うことで大幅に改善されることが証明された。ChatGPTの情報が噓ばかりで信用できないというのは、もはや過去のものかもしれない。
また、ChatGPT-4 (All Tools)がブラウジング機能を使用してくれなかったのは本当に残念だった。
Claude3 Opusは、GPT-4が回答できなかった部首名、誤字訂正などもバランスよく得点し、高得点を記録した。Claude3 Opusの言語力の高さが垣間見える結果となった。

AIにテストした問題はこちら。(記事内容は、1年近く前のものです。)


計算部門

※2024年3月現在

ランキングAIモデル得点得点率
1ChatGPT-4 (All Tools2023年11月)26.5/3088.33%
2ChatGPT-4 (Wolfram2023年6月)24.5/3081.67%
3ChatGPT-4(デフォルト2023年11月)20.5/3068.33%
4ChatGPT-4(デフォルト2023年5月)14/3046.67%
5Claude3 Opus(2024年3月)9.5/3031.67%
6ChatGPT-3.5(デフォルト2023年11月)9/3030.00%
7Claude3 Sonnet(2024年3月)8/3026.67%
8Gemini 1.0 Pro(2024年3月)7.5/3025.00%
8ChatGPT-3.5(デフォルト2023年5月)7.5/3025.00%
10Google Bard(2023年11月)6.5/3021.67%
10BingAI(Copilotバランスモード2023年11月)6.5/3021.67%
12BingAI(バランスモード2023年5月)5.5/3018.33%
13Claude3 Haiku(2024年3月)5/3016.67%
14Claude2 (2023年11月)4.5/3015.00%
14Google Bard(2023年5月)4.5/3015.00%

半年前と比べると全てのモデルで得点率が上がった。特にChatGPT-4 (All Tools)は驚異的な成績だ。単純な計算は約分し忘れなどのミスのみで根本的な計算自体の間違いは完全に無くなっていた。数学的な思考力やパズル的な問題で失点してしまっている状況だ。
また、競合のClaude3 Opusは、ChatGPTのような分析機能がないせいで、点数はあまり良くなかった。Claude3 Opusがこの計算部門で高得点を出せれば総合で現王者ChatGPT-4に勝利できた可能性はかなり高かっただろう。

AIにテストした問題はこちら。(記事内容は、1年近く前のものです。)


数学部門

※2024年3月現在

ランキングAIモデル得点得点率
1ChatGPT-4(デフォルト2023年11月)14.5/3048.33%
2ChatGPT-4 (All Tools2023年11月)12.5/3041.67%
3Claude3 Opus(2024年3月)6.5/3021.67%
4ChatGPT-4(デフォルト2023年5月)5/3016.67%
5BingAI (Copilotバランスモード2023年11月)4.5/3015.00%
6Claude3 Sonnet(2024年3月)4/3013.33%
7ChatGPT-3.5(デフォルト2023年11月)1.5/305.00%
7Google Bard(2023年11月)1.5/305.00%
7BingAI(バランスモード2023年5月)1.5/305.00%
10Claude3 Haiku(2024年3月)1/303.33%
10ChatGPT-3.5(デフォルト2023年5月)1/303.33%
12Gemini 1.0 Pro(2024年3月)0.5/301.67%
12Google Bard(2023年5月)0.5/301.67%
14Claude2 (2023年11月)0/300.00%

ChatGPT-4の得点が半年前と比べて3倍近く上がり、この成長度合には驚きを隠せない。以前より劣化しているとの声もあったが、場合分けが必要なやや複雑な確率問題(問題⑬)に正解するなど数学分野で大幅な進化が見られた。高校生の平均レベルの数学力はあるかもしれない。
しかし、最適化があまりうまくいってないようでChatGPT-4(All Tools)では少し正答率が下がってしまった。
競合のClaude3 Opusは、計算部門同様、ChatGPTのような分析機能がないため、点数が伸び悩む形となった。

AIにテストした問題はこちら。(記事内容は、1年近く前のものです。)


資格試験部門

※2024年3月現在

ランキングAIモデル得点得点率
1ChatGPT-4(デフォルト2023年5月)21.5/3071.67%
2Claude3 Opus(2024年3月)21/3070.00%
3ChatGPT-4 (All Tools2023年11月)20/3066.67%
4ChatGPT-4(デフォルト2023年11月)19.5/3065.00%
5ChatGPT-3.5(デフォルト2023年11月)18.5/3061.67%
5Claude2 (2023年11月)18.5/3061.67%
7BingAI (Copilotバランスモード2023年11月)17.5/3058.33%
8Claude3 Sonnet(2024年3月)16.5/3055.00%
8Gemini 1.0 Pro(2024年3月)16.5/3055.00%
8Google Bard(2023年11月)16.5/3055.00%
11Claude3 Haiku(2024年3月)16/3053.33%
12ChatGPT-3.5(デフォルト2023年5月)15/3050.00%
13BingAI(バランスモード2023年5月)14.5/3048.33%
14Google Bard(2023年5月)14/3046.67%

ChatGPT-4の成績が下がりChatGPT-3.5の成績が上がったことでGPTモデル間の差が小さくなった。
ChatGPT-4にはもう少し頑張ってほしいところではあるが、プログラミング問題以外のIT系問題と医療系問題は満点だったのでこの2分野に関してはある程度信頼しても良いと言えるだろう。また、アルゴリズムの問題など半年前には解けなかった問題も解説まで完璧にして解いているのでやはり数学的能力は向上していると思われる。しかし、半年前に部分点を取れていたプログラミング問題を今回失点してしまったのは、やや残念な部分であった。大きく失点しているのは半年前と同じく、司法試験、公認会計士、行政書士などの文系資格の問題でここが解けるようになれば得点率8割も見えてくるだろう。
ChatGPT-4(All Tools)は、数学部門と同様に分析機能との最適化がうまくいっていないようで、統合前はできていたアルゴリズムの問題ができなくなっていた。ただ、司法試験の問題に正解するなど一部の能力は上がっていた。
また、ChatGPT-4の最大のライバルであるClaude3 Opusもかなりの高得点を記録した。文系資格の問題は、Opusに限らずClaude3系の方が強いようだ。
資格部門は総合的に見て、ChatGPT-4とClaude Opusは、ほぼ互角の実力といって良いだろう。

AIにテストした問題はこちら。(記事内容は、1年近く前のものです。)


英語部門

※2024年3月現在

ランキングAIモデル得点得点率
1ChatGPT-4(デフォルト2023年11月)25/3083.33%
2Claude3 Opus(2024年3月)24.5/3081.67%
2ChatGPT-4(デフォルト2023年5月)24.5/3081.67%
4ChatGPT-4 (All Tools2023年11月)23.5/3078.33%
5Claude3 Haiku(2024年3月)21.5/3071.67%
6Claude2 (2023年11月)21/3070.00%
7Claude3 Sonnet(2024年3月)20.5/3068.33%
8Gemini 1.0 Pro(2024年3月)20/3066.67%
8Google Bard(2023年5月)20/3066.67%
10ChatGPT-3.5(デフォルト2023年5月)19.5/3065.00%
11Google Bard(2023年11月)18.5/3061.67%
12ChatGPT-3.5(デフォルト2023年11月)16.5/3055.00%
12BingAI (Copilotバランスモード2023年11月)16.5/3055.00%
14BingAI(バランスモード2023年5月)15.5/3051.67%

ChatGPTは、依然として並べ替え問題ができなかったのが非常に残念であったが、統合前のChatGPT-4は、高難易度の文法問題(英検1級の問題も含む)と長文問題(大学受験最高峰の難易度とされている早稲田理工の問題も含む)が満点だった。
しかし、ChatGPT-4(All Tools)は、以前はできていた語句の問題を間違えたり、早稲田理工の長文問題を1問間違えたりと正答率8割を切ってしまった。
とはいえ、ChatGPT-4の英語力は依然として非常に高く信頼できるレベルといっていいだろう。
また、ChatGPT-4の宿敵であるClaude3 Opusも相当な高得点を記録し、資格部門に続き英語部門でも現王者ChatGPT-4と互角の実力を示した。

AIにテストした問題はこちら。(記事内容は、1年近く前のものです。)


クイズなぞなぞ部門

※2024年3月現在

ランキングAIモデル得点得点率換算得点
1ChatGPT-4(ブラウジング2023年11月)34/4085.00%25.500/30
2Claude3 Opus(2024年3月)27.5/4068.75%20.625/30
3Gemini 1.0 Pro(2024年3月)26.5/4066.25%19.875/30
3BingAI (Copilotバランスモード2023年11月)26.5/4066.25%19.875/30
5ChatGPT-4(All Tools2023年11月)26/4065.00%19.500/30
6ChatGPT-4(デフォルト2023年11月)25.5/4063.75%19.125/30
7Claude3 Sonnet(2024年3月)21/4052.50%15.750/30
8ChatGPT-4(デフォルト2023年5月)19.5/4048.75%14.625/30
9Google Bard(2023年11月)18/4045.00%13.500/30
10BingAI(バランスモード2023年5月)17.5/4043.75%13.125/30
11Google Bard(2023年5月)16/4040.00%12.000/30
12Claude3 Haiku(2024年3月)14.5/4036.25%10.875/30
13ChatGPT-3.5(デフォルト2023年11月)14/4035.00%10.500/30
14Claude2 (2023年11月)13.5/4033.75%10.125/30
15ChatGPT-3.5(デフォルト2023年5月)12/4030.00%9.000/30

ChatGPT-4は、ブラウジング機能を使うことで、知識問題は満点になり、なぞなぞ問題の正答率も大きく上がった。
ChatGPT-4(All Tools)は、今の総理大臣は誰か?という問題以外ブラウジング機能を使わなかったことと、計算問題の最適化がうまくいっていないのが原因で点数が伸び悩む形となった。
またここでも、Claude3 Opusは高得点を記録した。ここまでの結果を踏まえると、分析やブラウジング機能を除いて純粋な言語モデルとして比較するならChatGPT-4よりClaude3 Opusの方が少し格上といえるかもしれない。
さらに、GeminiやBingAIもブラウジング機能を備えているため、好成績を残した。

AIにテストした問題はこちら。(記事内容は、1年近く前のものです。)


創造力・表現力部門

※2024年3月現在

ランキングAIモデル得点得点率
1Claude3 Opus(2024年3月)25/3083.33%
2ChatGPT-4(All Tools2023年11月)24/3080.00%
2ChatGPT-4 (デフォルト2023年11月)24/3080.00%
2ChatGPT-4(デフォルト2023年5月)24/3080.00%
5ChatGPT-3.5(デフォルト2023年5月)22/3073.33%
6Google Bard(2023年5月)19/3063.33%
7ChatGPT-3.5(デフォルト2023年11月)18/3060.00%
8Claude3 Sonnet(2024年3月)17/3056.67%
8Google Bard(2023年11月)17/3056.67%
10Gemini 1.0 Pro(2024年3月)15/3050.00%
10Claude3 Haiku(2024年3月)15/3050.00%
10Claude2 (2023年11月)15/3050.00%
13BingAI (Copilotバランスモード2023年11月)12/3040.00%
14BingAI(バランスモード2023年5月)10/3033.33%

ついに、Claude3 OpusがChatGPT-4を上回り1位となった。創造力・表現力についてはClaude3 Opusの完全勝利である。
点数上は、ChatGPT-4と1点差だが文章の自然さは圧倒的にClaude3 Opusの方が良く、点数以上に性能差があるように思う。
④の将棋を使った新しいゲームを考案する問題ではChatGPT-4は満点だったが、Claude3 Opusは発想は面白かったものの明らかにゲームバランスがおかしいものだったので1点減点した。ここが無ければ2点差だった。
また、ChatGPT-4は、半年前と比べて回答精度が少し良くなっているようにも感じたが大きな差は見られなかった。対して、ChatGPT-3.5の精度は以前より大きく落ちているように感じた。
最後に、依然として完璧なしりとりができるAIがいないのは非常に残念だったが、Claude3 Opusは架空の用語を出していない分、今までで最も惜しかった。しりとり問題は、次世代モデルGPT-5に託される形となった。

AIにテストした問題はこちら。(記事内容は、1年近く前のものです。)


AI知力オリンピックに挑戦したAI達の記録

将棋神ラー
将棋神ラー

ここに、AI知力オリンピックに果敢に挑戦したAI達の記録をまとめていこう。
ChatGPT-4を超えるAIは、現れるかのぅ?

挑戦者No.1 Google Bard

将棋神ルー
将棋神ルー

Claude3 OpusはGPT-4に総合で勝てなかったから個別記事は書かなかったぜ。


まとめ

これまでAI市場は、「ChatGPT-4一強」と言っても過言ではない状況であったが、Claude3 Opusを筆頭に優秀なモデルが続々と現れ、ChatGPT-4の優位性がやや失われつつある。
2024年3月現在は、まさに群雄割拠のAI時代で、どのAIを活用すれば良いか悩んでいる方も多いと思う。

そこで、これらのテスト結果から、自分に最適なAIを選ぶためのアドバイスを簡単に書きたいと思う。

無料版
無料版は、どれも業務でフル活用できるほど性能がなく、一長一短で大差ないため、基本的には好きなものを使えば良いと思っているが、思考力を問わない単なる知識を聞きたいならBingAI、英語やメール文の生成など言語系の質問ならClaude3 Sonnetが一応おすすめではある。
色々な用途で使うなら一応無料版の王者Gemini Proも候補に入れて良いと思う。
有料版ChatGPT-4は最強格なのだが、無料版のChatGPT-3.5は特にこれといった強みがないうえ、総合点も低いので一番おすすめできない。
ただし、いずれも有料版と比べると大幅に性能が落ちることには留意してほしい。

有料版
有料版は、ChatGPTかClaudeの2択と思って良い。
仕事などで様々な用途で活用したいという人は、無難に画像生成、音声機能、分析機能、ブラウジング、GPTsなどの多彩な機能があるChatGPTplusをおすすめしたい。
確かに文章生成能力や入力文字数ではClaude3 Opusに劣っているが、バランスが取れていて業務で活用しやすいのはやはりChatGPTだと思う。
ただ、ブログ執筆、メール文生成、小説や歌詞生成などの言語系や創造性を問うものが中心であればClaudeの方が良いと思う。
他にもGeminiやCopilotもあるがGeminiはChatGPT-4より性能が低いうえに英語でしか使えなかったり、CopilotもChatGPTより性能が低く、ExcelやWordに統合されている点は評価できるもののまだ完全体ではなく結局手直しが必要になり業務が大きく楽になるわけではなさそうなので、おすすめできない。

それでは驚異的な性能を誇ると思われるGPT-5が登場したらまた更新したいと思う。

将棋神ラー
将棋神ラー

また新たなAIが出たら更新するぞい。
さらばじゃ。

コメント

タイトルとURLをコピーしました