资讯
随着 AI 聊天机器人的迅速普及,我们很难判断哪些模型确实在改进,哪些则已经落后。传统的学术基准测试提供的信息有限,因此许多人开始依赖 LM Arena 基于直觉的分析。然而,一项新研究声称,这个流行的 AI 排名平台充斥着不公平做法,偏袒那些恰好位居排行榜前列的大公司。但该网站的运营者则表示,该研究得出了错误的结论。
少数大模型厂商(如Meta、Google、Amazon)被允许私下测试多个模型变体,并只公开最佳表现的版本。 比如,Meta在Llama 4发布前曾私下测试27个变体,加上多模态、代码等榜单,Meta可能一共测试过43个变体。
LMArena模拟的缺陷:图7/8中的模拟存在问题。这就像说:NBA球员的平均三分命中率是35%。斯蒂芬·库里拥有NBA球员最高的三分命中率42%。这不公平,因为他来自NBA球员的分布,而所有球员都有相同的潜在平均水平。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果