moonlight - 搜索 News

2 天

月之暗面推出新优化器Muon，计算效率大幅提升

近日，人工智能领域再度掀起波澜，月之暗面（Moonshot）宣布开源新版优化器 Muon，成功将计算效率提升至传统 AdamW 的两倍。这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库，引发了业内的高度关注和讨论。

2 天on MSN

月之暗面开源Moonlight：30亿/160亿参数混合专家模型

公司动态经济观察网讯 ...

2 天

开源赛道太挤了！月之暗面开源新版Muon优化器

上周五，DeepSeek 刚刚官宣这周要连续开源 5 个代码库，却被月之暗面深夜截胡了。昨天，月之暗面抢先一步开源了改进版 Muon 优化器，比 AdamW 优化器计算效率提升了 2 倍。团队人员表示，原始 Muon ...

2 天

月之暗面联手UCLA推新模型Mixture-of-Expert，提升语言模型训练效率

在人工智能领域，训练大型语言模型（LLMs）已成为推动技术进步的重要方向。然而，随着模型规模和数据集的不断扩大，传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战，包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此，迫切需要更高效、更稳定的优化技术来应对这些复杂性。

2 天on MSN

月之暗面Kimi发布Moonlight模型：参数高达30亿至160亿，性能大幅提升

近期，人工智能领域迎来了一项引人注目的技术创新。知名技术团队月之暗面Kimi发布了一项关于Muon优化器的新技术报告，并随之推出了名为“Moonlight”的混合专家模型（MoE）。这款模型在Muon优化器的基础上进行了训练，拥有30亿至160亿不等 ...

2 天

Kimi团队发布Moonlight模型：参数高达160亿，性能提升显著，开源Muon ...

Moonlight模型的发布无疑为AI领域注入了一剂强心针。该模型在训练过程中采用了高达5.7万亿个token的数据量，同时通过减少浮点运算次数（FLOPs），实现了性能的显著提升。这一突破不仅提升了帕累托效率边界，更为未来的大规模语言模型训练提供了 ...

2 天

月之暗面Kimi发布Moonlight模型：性能突破30亿到160亿参数

在技术发展与市场应用不断交织的过程中，专家普遍认为，虽然前景广阔，但仍然存在潜在的风险和挑战。例如，持续强化的模型训练可能导致计算资源的消耗过快，对生态可持续性形成威胁。随着数据隐私及伦理问题愈加突出，如何在保证数据利用率的同时，维护用户隐私，是行业亟需解决的难题。此外，技术的过度依赖也可能使得企业在面对突发情况时缺乏应变能力，这需要行业内的共同探索及解决方案。

2 天on MSN

月之暗面Kimi推出Moonlight：30 亿/160 亿参数混合专家模型

IT之家 2 月 24 日消息，月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告，并宣布推出“Moonlight”：一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型（MoE）。使用了 5.7 万亿个 ...

腾讯网3 天

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

（注：帕累托前沿是一个经济学和管理学中的概念，描述的是在多目标决策问题中所有可能的最优解的集合，这些解在多个目标之间取得了最佳平衡。在帕累托前沿上的每一个点，都意味着一个目标的改善必然以牺牲另一个目标为代价，因此它代表了在多个目标之间实现的最佳权衡。

8 天

月之暗面全新AI模型KimiLatest发布，智能助手未来新标准！

在人工智能迅猛发展的时代，竞争愈演愈烈，各大科技公司纷纷争相推出新产品。2月18日，人工智能领域备受关注的品牌月之暗面（Moonlight Shadow）正式宣布推出了其全新的人工智能模型——KimiLatest，这一新产品的发布将迅速引起市场和用户的广泛关注。KimiLatest不仅是Kimi智能助手旗下的又一款新成员，还意味着将有更多创新与智能体验走进我们日常生活中。

中华网9 天

外交部发布视频中出现DeepSeek 古语翻译引热议

外交部发布视频中出现DeepSeek。2月14日，中共中央政治局委员、外交部长王毅在出席第61届慕尼黑安全会议时谈及中美关系，并引用了多句中国古语，其中包括武侠小说家金庸在作品中提到的两句话。对于这些话的翻译，王毅建议记者可以求助DeepSeek。 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果