资讯
1 小时on MSN
AI评测新挑战:GPT-5等顶尖模型在FormulaOne基准中集体遇挫
近期,AI评测领域迎来了一场前所未有的风暴,由AAI机构推出的FormulaOne基准测试让业界为之震动。此次测试汇集了GPT-5、Grok4、o3Pro等顶尖AI模型,然而结果却令人大跌眼镜:所有参赛模型在测试中均未能及格,得分全部为零。FormulaOne基准测试包含220个精心设计的图结构动态规划问题,这些问题难度横跨中等至科研级别,涉及拓扑、几何和组合等多个复杂领域。尽管问题表述简洁明了, ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果