资讯

研究人员通过实验证明,这种「最佳-N选择」策略会系统性地提高Arena分数,违背了基础的布拉德利-特里模型(Bradley-Terry model)假设。 利益冲突声明:@AiEleuther的lm eval ...
在人工智能迅猛发展的今天,如何评估和比较不同的AI聊天机器人模型已成为一个备受关注的话题。Chatbot Arena,作为一个众包人工智能基准测试的开放平台,由加州大学伯克利分校的SkyLab和LMArena的研究人员共同开发,旨在通过用户投票和测试数据,为我们揭示这些大模型的真实表现。本文将深入探讨Chatbot ...
作者:Bryan编辑:Cage在上一篇研究图谱中,我们指出医疗领域很可能是 Vertical Agent 最先落地的领域,其中最有代表性的公司之一是 OpenEvidence,一款专为医生设计的 AI 专业诊断 ...
苹果计划引入AI搜索技术加剧市场对谷歌搜索被颠覆的担忧。AI搜索分流用户份额,但广告变现困难,苹果因谷歌广告生态优势暂未更换默认搜索位。谷歌面临长期风险,需加速自我变革应对AI搜索挑战,短期市场情绪受反垄断听证会影响较大。AI搜索分流用户:移动端AI ...
据媒体报道,从多位内部人事处获悉,国行版苹果AI两大合作方百度和阿里技术占比分别为近35%、65%。百度提供云端搜索、视觉、图片、语音唤醒等AI能力,其他技术则由阿里提供。苹果提供的合作年框总计金额超百亿。其中,百度方面由百度智能云事业群(ACG)承 ...
对「人机恋」的争议和讨论已经很多了,发展到如今,有一个事实没法不正视: 在大语言模型显然更胜任事务型工作的时候,有那么一批用户,硬是把它「聊」成了朋友、伴侣乃至恋人。
“AI 搜索颠覆” 恰如达摩克利斯之剑,但最终落下的时点,除了谷歌要更加专注产品体验,避免用户用脚投票外,商业变化很大程度上取决于谷歌是否加速自我变革。
另外他还透露,OpenAI 第一个开源模型,会在今年夏天发布。值得一提的是,奥尔特曼神秘的家庭生活,也在一位记者的亲身探寻下,让我们窥到了一斑。 跟他一同出席的,还有 AMD CEO 兼董事长苏姿丰,CoreWeave 联创兼 CEO Michael ...
在AI领域的激烈竞争中,一场关于AI Agent(智能体)的争夺战悄然打响。Manus,这款被誉为“全球首款真正意义通用AI Agent”的产品,近期宣布完成了一轮7500万美元的融资,估值飙升至5亿美元,距离其3月初的上线仅过去了短短数周。
LMArena更新了Meta最新发布的开源大模型Llama-4-Maverick的排名,从此前的第2名,直线掉到了第32名!这也实锤了此前开发者对Meta为刷榜排名向LMArena提供了“特供版”的Llama4大模型的质疑。开源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名为32名,远低于Gemini2.5Pro、GPT4o、DeepSeek-V3 ...
但正如研究人员指出的那样,迄今为止,关于这种监督方法有效性的论证大多停留在定性、概念层面,缺乏像航空安全(要求每飞行小时的致死率低于十万分之一)或核反应堆安全(要求核心损坏频率低于每年万分之一)那样严格的量化标准。
自3月13日,阿里宣布夸克升级为AI超级框后,夸克在AI定位上狂飙突进,传统搜索定位则被彻底放弃。AI产品榜数据显示,今年3月国内web端AI产品中,夸克的月度总访问量仅次于DeepSeek排名第二位。在全球APP端AI产品中,夸克以1.48亿MAU ...