dimension 20 - 搜索 News

43 分钟

官方详解 DeepSeek-V3 / R1 推理系统：优化目标是更大吞吐、更低延迟

由于 DeepSeek-V3 / R1 的专家数量众多，并且每层 256 个专家中仅激活其中 8 个。模型的高度稀疏性决定了 DeepSeek 必须采用很大的 overall batch size，才能给每个专家提供足够的 expert batch size，从而实现更大的吞吐、更低的延时。需要大规模跨节点专家并行（Expert Parallelism / EP）。

28 分钟

DeepSeek开源周收官，V3/R1推理系统概览于知乎独家发布

3月1日，DeepSeek于知乎开设官方账号，独家发布《DeepSeek-V3/R1推理系统概览》技术文章，首次公布模型推理系统优化细节，并披露成本利润率关键信息，标志着全球关注的“DeepSeek开源周”正式收官。不久前，月之暗面、微软研究院、清华大学、阶跃星辰等开源项目参与者，均在知乎分享研究成果和经历。知乎一直是AI从业者和创业者密度最高的社区，此次DeepSeek选择知乎作为开源发布的最后 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点