近日,人工智能领域再度掀起波澜,月之暗面(Moonshot)宣布开源新版优化器 Muon,成功将计算效率提升至传统 AdamW 的两倍。这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库,引发了业内的高度关注和讨论。
机器之心报道编辑:陈陈、佳琪省一半算力跑出2倍效果,月之暗面开源优化器Muon,同预算下全面领先。月之暗面和 DeepSeek 这次又「撞车」了。上次是论文,两家几乎前后脚放出改进版的注意力机制,可参考《撞车 DeepSeek NSA,Kimi ...
在人工智能领域,训练大型语言模型(LLMs)已成为推动技术进步的重要方向。然而,随着模型规模和数据集的不断扩大,传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战,包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此,迫切需要更高效、更稳定的优化技术来应对这些复杂性。
近期,人工智能领域迎来了一项引人注目的技术创新。知名技术团队月之暗面Kimi发布了一项关于Muon优化器的新技术报告,并随之推出了名为“Moonlight”的混合专家模型(MoE)。这款模型在Muon优化器的基础上进行了训练,拥有30亿至160亿不等 ...
Moonlight模型的发布无疑为AI领域注入了一剂强心针。该模型在训练过程中采用了高达5.7万亿个token的数据量,同时通过减少浮点运算次数(FLOPs),实现了性能的显著提升。这一突破不仅提升了帕累托效率边界,更为未来的大规模语言模型训练提供了 ...
在技术发展与市场应用不断交织的过程中,专家普遍认为,虽然前景广阔,但仍然存在潜在的风险和挑战。例如,持续强化的模型训练可能导致计算资源的消耗过快,对生态可持续性形成威胁。随着数据隐私及伦理问题愈加突出,如何在保证数据利用率的同时,维护用户隐私,是行业亟需解决的难题。此外,技术的过度依赖也可能使得企业在面对突发情况时缺乏应变能力,这需要行业内的共同探索及解决方案。
IT之家 2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 ...
品玩2月24日讯,Kimi 上周末发布技术报告,宣布开源 MoE 模型 Moonlight-16B-A3B。 报告表示,Kimi通过深度改造 Muon 优化器,并将其运用于实际训练,证明了 Muon 在更大规模训练中的有效性,是 AdamW ...
(注:帕累托前沿是一个经济学和管理学中的概念,描述的是在多目标决策问题中所有可能的最优解的集合,这些解在多个目标之间取得了最佳平衡。在帕累托前沿上的每一个点,都意味着一个目标的改善必然以牺牲另一个目标为代价,因此它代表了在多个目标之间实现的最佳权衡。
在人工智能迅猛发展的时代,竞争愈演愈烈,各大科技公司纷纷争相推出新产品。2月18日,人工智能领域备受关注的品牌月之暗面(Moonlight Shadow)正式宣布推出了其全新的人工智能模型——KimiLatest,这一新产品的发布将迅速引起市场和用户的广泛关注。KimiLatest不仅是Kimi智能助手旗下的又一款新成员,还意味着将有更多创新与智能体验走进我们日常生活中。