Model of Math - 搜索 News

资讯

AI大模型批评能力大考验：为什么o1-mini脱颖而出？中科大深圳团队 ...

第一种是自我批评模式，就像让学生检查自己的作业。AI首先解答一道题目，然后回过头来批评自己的答案，找出其中可能存在的错误并进行修正。这种能力在现实中非常有用，就像我们写完文章后会反复检查修改一样。然而，这种模式也存在天然的局限性——AI很难跳出自己的 ...

财富中文网4 小时

OpenAI创始人：ChatGPT推出以来，未曾有过一夜安眠

在与塔克·卡尔森展开的这场涵盖诸多话题的采访里，这位OpenAI首席执行官讲述了监管这项“数亿人日常使用”的技术所承受的压力。对他而言，这种压力并非来自“终结者式”的场景或失控的机器人，而是团队每天都在进行的那些看似平常、甚至近乎无形的微调与权衡—— ...

科技行者 on MSN2 天

阿里巴巴：让AI像程序员一样"检查代码"来纠正自己的错误

这项由阿里巴巴淘宝天猫集团的宋小帅、吴亚南等研究人员完成的研究发表于2025年1月，论文标题为"ProgCo: Program Helps Self-Correction of Large Language Models"。有兴趣深入了解的读者可以通过GitHub代码库https://github.com/songxiaoshuai/progco获取完整的研究资料和实现代码。当我们写作业或工作时 ...

2 天

阿里巴巴 ProgCo：AI 像程序员一样“检查代码”，纠错能力获显著提升

markdown { "articleTitle": "阿里巴巴 ProgCo：AI 像程序员一样“检查代码”，纠错能力获显著提升", "articleContent": "阿里巴巴淘宝天猫集团的研究人员于2025年1月发布了一项引人注目的研究，名为“ProgCo: Program Helps Self-Correction of Large Language Models”。这项研究的核心在于 ...

China.org.cn5 天

China Focus: A capable assistant in classroom -- Chinese educators embrace AI

BEIJING, Sept. 10 (Xinhua) -- Wednesday marked China's 41st Teachers' Day. While educators across the country received warm wishes from their students, many people are grappling with a pressing questi ...

财富中文网1 天

AI太容易出错，大型企业开始对AI的热情下降

这一逆转是在此前几个季度的快速攀升之后出现的。大型企业的AI采用率从2023年9月的3.7%升至2024年12月的5.7%，并在2025年第二季度达到9.2%。中型企业的采用率依然较低，最高约为4.8%；而最小型企业，尤其是员工在1-4人的企业，则保 ...

China.org.cn3 天

From drones to humanoids, technology drives sports innovation in China

The 2025 RoboCup Asia-Pacific Chongqing Invitational Tournament, held at the same venue, extended the competition to robotics. Teams from China, Thailand, Singapore, and Malaysia competed in football ...

6 天

轻量级人工智能模型助力边缘推理：Multiverse为更多设备开发小参数模型

大语言模型功能强大，但通常需要大量的计算资源，这意味着它们通常必须在数据中心的大量高端GPU上运行。现在，初创公司Multiverse Computing创建了一些模型，据说这些模型的大小可与鸡和苍蝇的大脑相媲美，这使得该公司能够缩小强大的大语言模型 ...

腾讯网2 天

Meta开源MobileLLM-R1模型，不到1B参数，用1/10的训练就超越了Qwen3

机器之心报道编辑：泽南、杨文与其他全开源模型相比，性能提升2-5倍。小参数模型也进入了 R1 时代，这次开源出新技术的是 Meta。本周五，Meta AI 团队正式发布了 MobileLLM-R1。HuggingFace ...

InfoQ中国 on MSN4 天

MCP：构建更智能、模块化AI代理的通用连接器

要点 ...

15 小时

大模型碰到真难题了，测了500道，o3 Pro仅通过15%

然而，现有测试面临着「难度–真实性」的矛盾：侧重于考试的基准往往被人为设置得很难，但实际价值有限；而基于真实用户交互的基准又往往偏向于简单的高频问题。具体而言，本文提出了 UQ（Unsolved Questions），这是一个由 500 道题组成的测试集，涵盖计算机理论、数学、科幻、历史等主题，用于考察模型在推理、事实准确性以及浏览等方面的能力。UQ 在设计上兼具难度大与贴近真实两大特点：这些问 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果