Unsolved Com - 搜索 News

资讯

2 天

大模型挑战赛：O3 Pro在未解难题上仅通过15%，大模型评估面临新挑战

markdown 近日，来自斯坦福大学、华盛顿大学等机构的研究者发布了一项针对大模型的新型评估基准——UQ（Unsolved Questions），该基准旨在考察模型在解决未解难题方面的能力。与传统的基准测试不同，UQ聚焦于推理、事实准确性以及浏览等关键能力，旨在更贴近现实世界的使用场景。然而，在对标杆模型O3 Pro的测试中，其通过率仅为15%，引发了业界对大模型评估方法和模型真实能力的深入思考 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

资讯

大模型挑战赛：O3 Pro在未解难题上仅通过15%，**大模型评估**面临新挑战

今日热点

大模型挑战赛：O3 Pro在未解难题上仅通过15%，大模型评估面临新挑战