资讯
markdown 近日,来自斯坦福大学、华盛顿大学等机构的研究者发布了一项针对大模型的新型评估基准——UQ(Unsolved Questions),该基准旨在考察模型在解决未解难题方面的能力。与传统的基准测试不同,UQ聚焦于推理、事实准确性以及浏览等关键能力,旨在更贴近现实世界的使用场景。然而,在对标杆模型O3 Pro的测试中,其通过率仅为15%,引发了业界对大模型评估方法和模型真实能力的深入思考 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果一些您可能无法访问的结果已被隐去。
显示无法访问的结果