资讯
21 分钟
智东西 on MSNClaude Opus 4.1深夜狙击OpenAI,SWE-bench编程卷到74.5%,预告更强大模型智东西 编译 | 王涵 编辑 | 漠影 智东西8月6日消息,今天,Anthropic正式发布Claude Opus 4.1。 据Anthropic公告,新模型在智能体工具调用、智能体编程与多语言问答能力上全面超越OpenAI ...
根据 OpenAI 公布的基准测试结果,gpt-oss-120b 在竞赛编程的 Codeforces 测试中表现优于 o3-mini,与o4-mini持平;在通用问题解决能力的 MMLU 和 HLE 测试中同样超越 o3-mini,接近 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果