【将棋】2023年度　宇宙将棋連盟共通テスト

将棋雑学

2023.01.142023.11.04

将棋神ラー

さぁ、今年も宇宙将棋連盟入会試験を行おう。
優秀な新しい生命体を募集する。
この試験で満点を取ると、宇宙将棋連盟に入会できるぞ。

将棋神リー

このテストは、初心者向けではないから、悪い結果でも落ち込まないでね！

この宇宙将棋連盟共通テストは、本物の大学入試共通テストの形式を真似て、将棋バージョンの共通テストを独自に作成したものです。
将棋に関するあらゆる問題を出題したため、棋力だけではない貴方の将棋の総合力がわかります。
難易度は、2級～二段程度の方向けの標準問題を中心に、将棋に関するちょっとした雑学や高段者の方でも頭を抱えてしまうような難問も出題しました。
また、次の一手問題では、将棋ソフトでの検証も十分に行ったので、安心して取り組んでください。
なるべく多くの方が楽しめる問題構成を目指したので気軽に挑戦してみてください！

この試験の目安は、以下です。

【目安】
100点：∞、宇宙将棋連盟入会！
95点：八段、藤井聡太
90点：七段、プロ棋士
85点：六段
80点：五段
75点：四段
70点：三段★
65点：
60点：二段
55点：
50点：初段
45点：
40点：1級
35点：
30点：2級
25点：
20点：3級
15点：
10点：4級
5点：
0点：5級

★は、初見でこのテストを解いた世界線の筆者（ウォーズ初段～二段）の点数です。作問者としてのアドバンテージがあり、実際の知識レベルより1ランクほど上になっていると感じるので、三段相当としています。

また、この段級は、宇宙将棋連盟の段級です。ただ、将棋ウォーズの段級でこのぐらいの人はこの程度かなというのも少し考えながら作成しているので、参考程度に見てみてください（笑）

将棋神ラー

本当は、将棋ファンの平均である1~２級を50点にするつもりじゃったんじゃが、、、
ちと難しくし過ぎたかもしれんのぅ。。。

将棋神リー

まもなく試験開始だよ！下の注意事項を読んでね！

【注意事項等】

次のページから問題となります。
紙とペンを用意してください。
問題は、全て選択問題となっています。
試験時間は、30分です。タイマーもしくは時計で正確に測って受験してください。
ネット閲覧、棋書を見る、試験時間超過等の不正行為は、無効（0点）となるので注意してください。
質問がある場合は、Yahoo!知恵袋の質問かTwitter（#宇宙将棋連盟共通テスト）にお願いします。

将棋神ラー

準備ができたら、タイマーを押して次のページに進んでくれ。

やねやんより:

2023年12月9日 10:10 AM

第2問問5 角換わり基本図からの△4五歩に対する次の一手について。難問というよりもそもそも問題自体が悪問だと思われるのでそう考える理由を以下に列挙していく。

⑴ そもそも次の一手問題の趣旨とは「明確な好手を発見/検討できるか」であり、どれを指しても1局という様々な有力選択肢の中から最善を指すことではないこと。次の一手問題でよくある形式は最善-次善で評価値に厳然たる差(評価値-500以上など)がある場合が多く、正解肢と不正解肢の異同が可能/容易である。しかし、最善-次善でほぼ差がない場合は正解肢と不正解肢の異同が困難である。今回のように最善-次善で評価値にほぼ差がない局面では、将棋ソフトの探索部や評価関数の更新がある限り、最善手を1つに特定することは実質不可能であり、正解を1つに絞ることができない。よってそもそもの問題設定に不備があると言え、大学入試、中でも万人が受験する共通テストを意識した問題としては悪問と言える。詳しくは⑵を参照されたい。

⑵答えを出す検討に用いている探索部が「やねうら王V6.5」と、かなり古いものであること。(2023/12月段階でやねうら王の最新ver.はV7.63であり、検討に用いているV6.5は2年前2021/9月にリリースされたもの。V6.5→V7.0→V7.5→V7.63と4世代前のものとかなり古いモデルで検討している。)※⑷にも後述する通り、2023/12月段階で最強と言える探索部-評価関数の組み合わせは、NUUE型ならば「やねうら王V7.63-Hao」or 「やねうら王V7.63-w@nder」、DL型ならば「dlshogi」である。前述の通り、最善-次善で評価値にほぼ差がない局面では、将棋ソフトの探索部や評価関数の更新がある限り、最善手を1つに特定することは実質不可能である。そしてかなり古いモデルで「答え」を出している所に真に最善を追求できていない印象を受け、問題の作り込みが甘いと考える。

⑶ノード数が非常に浅い場面で正解を出していること。(将棋ソフトは探索ノード数が多くなればなるほど強くなるのは知られている。※やねうら王開発者磯崎氏によれば、検討時間が2倍になればR200ほど強くなる。)検討画面では約3億3000万ノードと表示されているがこれでは検討が非常に浅い。最低でも2桁億ノード、50億ノード程度は読ませたいところだ。⑸で後述する通り、そもそも50億ノード付近まで読むにはパソコンのマシンスペックがある程度なければそこまで探索できない。※プロ6.55段表示も甘い。今まで確認できた中での最高表示はプロ12.00段程度。まだまだ探索できるはずだ。

⑷水匠5よりも強い評価関数の存在。(水匠開発者たややん氏によると2023/12月現在、NUUE型の中での比較でも今や水匠5よりHao、w@nder、blossom等の方が強いとのこと。また、繰り返しになるが最善-次善で評価値にほぼ差がない局面では使用するソフトによっても、探索部や評価関数がアップデートされる度に最善/次善は変わるのでそもそも正解など出すことができない。)

⑸パソコンのマシンスペックが脆弱であること。将棋ソフトの検討にはマシンスペックも非常に大きな要素になるが、中でもコア数/スレッド数が重要である。検討場面を見てみると4コアと記載があり、おそらくスレッド数はその2倍の8スレッドであるが、そのような廉価なノートパソコンレベルのスペックで正解を出しているのは解説としては腑に落ちない。ちなみに、私自身が所有しているパソコンも所詮家庭用でとてもしょぼいのだが、それでもAMD Ryzen7 5880Hは8コア16スレッドと解説使用の4コアの2倍ある。NPSも8000～10000knと高速である。「厳然たる答え」を出すなら、もっとマシなスペックのマシンで「答え」を出してくれ、というのが本音である…。

以上5点からそもそもの問題設定、それに関する解説、その導き方に不備があり、難問ではなく悪問であると個人的には考える。もしこれらに反論があればぜひお聞かせいただきたい。

返信
やねやんより:

2023年12月9日 12:16 PM

第2問問5について。
難問というよりそもそも問題自体が悪問だと思われるのでそう考える理由を以下に列挙していく。

⑴ そもそも次の一手問題の趣旨とは「明確な好手を発見/検討できるか」であり、どれを指しても1局という様々な有力選択肢の中から最善を指すことではないこと。次の一手問題でよくある形式は最善-次善で評価値に厳然たる差(評価値-500以上など)がある場合が多く、正解肢と不正解肢の異同が可能/容易である。しかし、最善-次善でほぼ差がない場合は正解肢と不正解肢の異同が困難である。今回のように最善-次善で評価値にほぼ差がない局面では、将棋ソフトの探索部や評価関数の更新がある限り、最善手を1つに特定することは実質不可能であり、正解を1つに絞ることができない。よってそもそもの問題設定に不備があると言え、大学入試、中でも万人が受験する共通テストを意識した問題としては悪問と言える。詳しくは⑵を参照されたい。

⑵答えを出す検討に用いている探索部が「やねうら王V6.5」と、かなり古いものであること。(2023/12月段階でやねうら王の最新ver.はV7.63であり、検討に用いているV6.5は2年前2021/9月にリリースされたもの。V6.5→V7.0→V7.5→V7.63と4世代前のものとかなり古いモデルで検討している。)※⑷にも後述する通り、2023/12月段階で最強と言える探索部-評価関数の組み合わせは、NUUE型ならば「やねうら王V7.63-Hao」or 「やねうら王V7.63-w@nder」、DL型ならば「dlshogi」である。前述の通り、最善-次善で評価値にほぼ差がない局面では、将棋ソフトの探索部や評価関数の更新がある限り、最善手を1つに特定することは実質不可能である。そしてかなり古いモデルで「答え」を出している所に真に最善を追求できていない印象を受け、問題の作り込みが甘いと考える。

⑶ノード数が非常に浅い場面で正解を出していること。(将棋ソフトは探索ノード数が多くなればなるほど強くなるのは知られている。※やねうら王開発者磯崎氏によれば、検討時間が2倍になればR200ほど強くなる。)検討画面では約3億3000万ノードと表示されているがこれでは検討が非常に浅い。最低でも2桁億ノード、50億ノード程度は読ませたいところだ。⑸で後述する通り、そもそも50億ノード付近まで読むにはパソコンのマシンスペックがある程度なければそこまで探索できない。※プロ6.55段表示も甘い。今まで確認できた中での最高表示はプロ12.00段程度。まだまだ探索できるはずだ。

⑷水匠5よりも強い評価関数の存在。(水匠開発者たややん氏によると2023/12月現在、NUUE型の中での比較でも今や水匠5よりHao、w@nder、blossom等の方が強いとのこと。また、繰り返しになるが最善-次善で評価値にほぼ差がない局面では使用するソフトによっても、探索部や評価関数がアップデートされる度に最善/次善は変わるのでそもそも正解など出すことができない。)

⑸パソコンのマシンスペックが脆弱であること。将棋ソフトの検討にはマシンスペックも非常に大きな要素になるが、中でもコア数/スレッド数が重要である。検討場面を見てみると4コアと記載があり、おそらくスレッド数はその2倍の8スレッドであるが、そのような廉価なノートパソコンレベルのスペックで正解を出しているのは解説としては腑に落ちない。ちなみに、私自身が所有しているパソコンも所詮家庭用でとてもしょぼいのだが、それでもAMD Ryzen7 5880Hは8コア16スレッドと解説使用の4コアの2倍ある。NPSも8000～10000knと高速である。「厳然たる答え」を出すなら、もっとマシなスペックのマシンで「答え」を出してくれ、というのが本音である…。

以上5点からそもそもの問題設定、それに関する解説、その導き方に不備があり、難問ではなく悪問であると個人的には考える。もしこれらに反論があればぜひお聞かせいただきたい。

返信
- shogishinrar より:
  
  2024年3月17日 12:13 AM
  
  わざわざソフトで調べていただきありがとうございます。
  確かにこの問題は、悪問でしたね。。。
  私自身もどの応手でも良いように感じていましたが、難問を作ろうと頑張り過ぎて空回りしてしまいました。
  次回作成するときは、答えが明確になるように作成したいと思います。
  ご指摘ありがとうございました。
  
  返信