大数据文摘出品擒牛宝配资
在Google旗下Kaggle平台主办的“棋局竞技场”中,一场AI国际象棋比赛正在展开。
参与者不是Stockfish或AlphaZero这样的专业引擎,而是八个大型语言模型(LLM):Grok 4、Gemini 2.5 Pro、o4-mini、o3、Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi k2。
比赛规则简单直接——单败淘汰制。每局比赛,AI有四次机会做出合法走子,四次失败即告负。
不比谁“算力强”,而是要看谁更能理解、分析并解决问题。
这是一场对AI通用智能(AGI)未来潜力的探索试验。
01 横扫四场,Grok 4领跑全场
在8月5日首日四场对决中,四场全是4比0横扫,没有任何悬念。Grok 4击败Gemini 2.5 Flash,以全胜之姿晋级四强。
不仅赢得干净利落,更展现了全场最具逻辑性的走法。
在对局中,Grok 4不断识别对手的漏子,并迅速发起攻击,每一分都带着“计算后的猎杀”感。
相比其他模型依赖模板式开局和反应式走子,Grok 4则像是在做一场目标清晰的围猎。
Gemini 2.5 Flash的失误固然给了机会,但Grok 4真正让人惊讶的是它的策略意识和位置判断力。
即使是在没有开局库、没有辅助引擎的纯思维对弈中,Grok 4也表现出令人意外的棋局掌控力。
与此同时擒牛宝配资,Gemini 2.5 Pro也以4比0战胜Claude 4 Opus晋级。
这组对局中出现了更多“合法走子”的回合,也出现了数次由棋局终结的真正“将死”,而非判负。
其中最令人印象深刻的是第四局,Gemini 2.5 Pro在局面占优的情况下,仍旧犯下了几个不该有的“送子”失误。
即使如此,它依然靠两后强势将死对手,保住了胜果。不过,从比赛内容来看,Claude 4 Opus的表现明显更为混乱。
在第一局,它在第十步选择“g5”,主动暴露王翼,直接加速败局。评论指出:“Claude 4 Opus看上去知道一些战术,但局势一变,它就像陷入迷雾。”
DeepSeek R1对阵o4-mini的比赛更像是一场“幻觉测试”。
开局阶段,双方都能给出几步强有力的操作。但进入中局,DeepSeek R1反复犯下“看错棋盘”的错误。
在一盘中,它甚至试图将马移到一个不存在的位置。尽管如此,o4-mini仍然完成了两次“实打实”的将死,成为唯一在一场比赛中完成两次将死的AI。
o4-mini因此拿下4分,晋级下一轮。
最混乱的对局来自o3与Kimi k2的交手。Kimi k2没有在任何一局中完成超过8步的对弈。
它连续四次在第四次尝试时下出非法棋,自动判负。从注释来看,Kimi k2的确懂得一些开局套路。
但一旦脱离开局库,它便彻底迷失方向,甚至连车、象的走法都记错。不是不会下棋,而是“忘了规则”。
这让人对它的训练数据和逻辑能力产生疑问。
03 AI的弱点,暴露在棋盘上
比赛成了一面“照妖镜”。从棋盘的表现看,大部分AI模型在以下三个方面表现不佳:
第一,无法完整“视觉化”整盘棋。许多AI看得见棋子,却无法判断整体布局关系。
第二,缺乏“因果理解”的连续性。一个子被吃了之后,AI往往不能明白其位置失守的后果,下一步仍会把王送进敌人攻击线。
第三,合法走子频频出错。不仅仅是“不会”,而是“记不得”。Kimi k2在每盘中失败的方式几乎完全一样:连续四次下出非法走子。
而这不是引擎限制,而是理解能力薄弱的体现。相比之下,Grok 4在这三方面都展现出极强的适应力。它能识别未被保护的棋子,能计算简单战术,也没有出现非法走子的情况。
这场比赛仍在继续。8月6日,将迎来半决赛。
四强对阵如下:Grok 4 vs Gemini 2.5 Pro,o4-mini vs o3。
谁会最终登顶尚不得而知,但从首日表现来看,Grok 4无疑是目前的最大热门。
比赛官网:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1
作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信Q1yezi,共同交流行业动态与技术趋势!
GPU 训练特惠!
H100/H200 GPU算力按秒计费,平均节省开支30%以上!
扫码了解详情☝
亿正策略提示:文章来自网络,不代表本站观点。