资讯

在人工智能迅猛发展的今天,如何评估和比较不同的AI聊天机器人模型已成为一个备受关注的话题。Chatbot Arena,作为一个众包人工智能基准测试的开放平台,由加州大学伯克利分校的SkyLab和LMArena的研究人员共同开发,旨在通过用户投票和测试数据,为我们揭示这些大模型的真实表现。本文将深入探讨Chatbot ...
LMArena更新了Meta最新发布的开源大模型Llama-4-Maverick的排名,从此前的第2名,直线掉到了第32名!这也实锤了此前开发者对Meta为刷榜排名向LMArena提供了“特供版”的Llama4大模型的质疑。开源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名为32名,远低于Gemini2.5Pro、GPT4o、DeepSeek-V3 ...
随着 AI 聊天机器人的迅速普及,我们很难判断哪些模型确实在改进,哪些则已经落后。传统的学术基准测试提供的信息有限,因此许多人开始依赖 LM Arena 基于直觉的分析。然而,一项新研究声称,这个流行的 AI 排名平台充斥着不公平做法,偏袒那些恰好位居排行榜前列的大公司。但该网站的运营者则表示,该研究得出了错误的结论。
研究还发现,数据访问的不平等也是影响排行榜公正性的关键因素。专有模型,如Google和OpenAI的产品,能够获得远超开源模型的用户反馈数据。具体而言,Google和OpenAI分别占据了测试数据的19.2%和20.4%,而83个开源模型共同占有的数据份额仅为29.7%。这种数据资源的不均衡,使得开源模型在排行榜上的表现受到严重制约。
钛媒体APP on MSN6 天
大厂围猎AI智能体
文 | 青橙财经,作者丨青沐,编辑丨六子 大模型的征战还未结束,一场关于AI Agent(智能体)的围猎之战又轰然开启。 被称为“全球首款真正意义通用AI ...
字节管理层判断AI对话类(或称chatbot类)产品可能只是AI产品的“中间态”,长期更理想的产品形式,大概率需要更视觉化的用户体验、更低的用户 ...