Unsolved Com - 搜索 News

资讯

2 天

大模型挑战赛：O3 Pro在未解难题上仅通过15%，大模型评估面临新挑战

markdown 近日，来自斯坦福大学、华盛顿大学等机构的研究者发布了一项针对大模型的新型评估基准——UQ（Unsolved Questions），该基准旨在考察模型在解决未解难题方面的能力。与传统的基准测试不同，UQ聚焦于推理、事实准确性以及浏览等关键能力，旨在更贴近现实世界的使用场景。然而，在对标杆模型O3 Pro的测试中，其通过率仅为15%，引发了业界对大模型评估方法和模型真实能力的深入思考 ...

2 天

大模型碰到真难题了，测了500道，o3 Pro仅通过15%

然而，现有测试面临着「难度–真实性」的矛盾：侧重于考试的基准往往被人为设置得很难，但实际价值有限；而基于真实用户交互的基准又往往偏向于简单的高频问题。具体而言，本文提出了 UQ（Unsolved Questions），这是一个由 500 道题组成的测试集，涵盖计算机理论、数学、科幻、历史等主题，用于考察模型在推理、事实准确性以及浏览等方面的能力。UQ 在设计上兼具难度大与贴近真实两大特点：这些问 ...

5 天

“极其罕见”：警方百万悬赏追捕弗里曼金钱能否撬动潜在帮凶？

The Bowraville murders refer to three deaths in Bowraville, NSW, between September 1990 and February 1991. The victims were all young Aboriginal people, and their families believe a serial killer was ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

资讯

大模型挑战赛：O3 Pro在未解难题上仅通过15%，**大模型评估**面临新挑战

大模型碰到真难题了，测了500道，o3 Pro仅通过15%

“极其罕见”：警方百万悬赏追捕弗里曼 金钱能否撬动潜在帮凶？

今日热点

大模型挑战赛：O3 Pro在未解难题上仅通过15%，大模型评估面临新挑战

“极其罕见”：警方百万悬赏追捕弗里曼金钱能否撬动潜在帮凶？