2024年2月24日至28日,国内AI领军企业DeepSeek以"开放即进化"为核心理念,举办了一场震动全球AI社区的"开源周"。在这场持续五天的技术盛宴中,DeepSeek连续发布了5款核心开源项目,覆盖算法优化、通信加速、矩阵计算、并行策略、数据存储全栈技术领域,展现出国产AI在底层技术上的突破性实力。其开源项目不仅以代码量为单位实现效率跃升(如300行代码定义矩阵乘法新范式),更通过真实场景测试数据证明:国产技术已具备重构全球AI基础设施的潜力。

第一天 FlashMLA

DeepSeek(深度求索)发布首个开源项目FlashMLA。根据DeepSeek在GitHub社区披露的信息,FlashMLA是适用于Hopper GPU(一种英伟达图形处理器架构)的高效MLA(多头潜注意力)解码内核,针对可变长度序列服务进行了优化。
地址: https://github.com/deepseek-ai/DeepEP
FlashMLA 的主要应用场景包括:

  • 长序列处理:适合处理数千个标记的文本,如文档分析或长对话。
  • 实时应用:如聊天机器人、虚拟助手和实时翻译系统,降低延迟。
  • 资源效率:减少内存和计算需求,便于在边缘设备上部署。

目前 AI 训练或推理主要依赖英伟达 H100 / H800,但软件生态还在完善。
由于 FlashMLA 的开源,未来它可以被集成到 vLLM(高效 LLM 推理框架)、Hugging Face Transformers 或 Llama.cpp(轻量级 LLM 推理) 生态中,从而有望让开源大语言模型(如 LLaMA、Mistral、Falcon)运行得更高效。 同样的资源,能干更多的活,还省钱。
因为 FlashMLA 拥有更高的计算效率(580 TFLOPS)和更好的内存带宽优化(3000 GB/s),同样的 GPU 资源就可以处理更多请求,从而降低单位推理成本。 对于 AI 公司或者云计算服务商来说,使用 FlashMLA 也就意味着更低的成本、更快的推理,让更多 AI 公司、学术机构、企业用户直接受益,提高 GPU 资源的利用率。

第二天 DeepEP

发布专家并行通信库 DeepEP:首个面向MoE模型的开源EP通信库,支持实现了混合专家模型训练推理的全栈优化!
地址: https://github.com/deepseek-ai/FlashMLA
DeepEP 的核心亮点

  • 高效优化的 All-to-All 通信: DeepEP 提供了高性能、低延迟的 GPU 集群内和集群间 all-to-all 通信内核,这正是 MoE 模型中专家路由和组合的关键所在。 你可以把它理解为 MoE 模型数据高速公路的升级版!
  • 集群内 (Intranode) 和集群间 (Internode) 全面支持: 无论是单机多卡,还是多机多卡,DeepEP 都能完美驾驭。 它充分利用 NVLink 和 RDMA 等高速互联技术,最大化通信带宽
  • 训练和推理预填充 (Prefilling) 的高性能内核: 对于模型训练和推理预填充阶段,DeepEP 提供了高吞吐量的内核,保证数据传输速度,加速模型迭代和部署
  • 推理解码 (Decoding) 的低延迟内核: 针对对延迟敏感的推理解码场景,DeepEP 也准备了低延迟内核,采用纯 RDMA 通信,最大限度减少延迟,让你的模型响应更快!
  • 原生 FP8 精度支持: 紧跟前沿技术,DeepEP 原生支持 FP8 低精度运算,进一步提升计算效率,节省显存
  • 灵活的 GPU 资源控制,实现计算-通信重叠: DeepEP 支持精细化的 SM (Streaming Multiprocessors) 数量控制,并引入了基于 Hook 的通信-计算重叠方法,巧妙地在后台进行通信,不占用宝贵的 GPU 计算资源! 这意味着什么? 你的 GPU 可以更专注于计算,通信交给 DeepEP 在幕后默默加速!

第三天 DeepGEMM

DeepGEMM是一个专注于为FP8高效通用矩阵乘法(GEMM)库,支持普通及混合专家(MoE)分组的矩阵计算需求,可动态优化资源分配以提升算力效率。值得一提的是,DeepGEMM设计目标是为DeepSeek-V3/R1模型的训练与推理提供简洁高效的底层支持,尤其针对Hopper架构GPU(如H800)优化,兼顾高性能与低成本。
地址: https://github.com/deepseek-ai/DeepGEMM
DeepGEMM 在各种计算场景下表现出色。 对于标准矩阵乘法,与基于 CUTLASS 3.6 的优化实现相比,速度提升 1.0 到 2.7 倍不等。小批量数据处理(M=64 或 128)获得了最显著的加速,最高达到 2.7 倍。
对于混合专家模型的计算,DeepGEMM 提供的两种特殊数据排列方式也有明显优势。 连续排列方式适用于训练和批量推理阶段,速度提升约 1.1 到 1.2 倍;掩码排列方式专为实时推理设计,支持与 CUDA 图技术配合使用,同样能提速 1.1 到 1.2 倍。
在 Hopper GPU 上最高可达 1350+FP8 TFLOPS。其他优点包括:

  • 没有过多的依赖,像教程一样简洁
  • 完全即时编译
  • 核心逻辑约为 300 行,但在大多数矩阵大小上均优于专家调优的内核
  • 支持密集布局和两种 MoE 布局

第四天 DualPipe、EPLB和profile-data

DeepSeek“开源周”第四弹,开源最新优化并行策略,包括DualPipe、专家并行负载均衡器(EPLB)和全流程性能数据(profile-data)。
地址: https://github.com/deepseek-ai/DualPipe
地址: https://github.com/deepseek-ai/eplb
地址: https://github.com/deepseek-ai/profile-data
据介绍,DualPipe​和​EPLB​是面向大规模AI模型训练的两项核心技术,分别聚焦于分布式训练效率优化​和专家并行负载均衡,均为V3/R1而设计。
具体而言,DualPipe是一种双向流水线并行算法,它通过“双向管道调度”和“计算通信重叠”,旨在减少分布式训练中的流水线“气泡”(空闲时间),让训练过程像流水线一样顺畅,提升GPU利用率。

  • 架构适配:专为英伟达 Hopper 架构 GPU 定制,深度契合其特性,大幅提升运行效率。
  • 分页 KV 缓存:创新分页存储关键数据,GPU 可快速精准定位,减少读取延迟,加速计算流程。
  • BF16 精度:平衡计算准确性与内存占用,降低内存负担,提升数据传输效率,节约硬件资源成本。
  • 可变序列处理:能灵活应对自然语言处理、视频分析等场景中输入数据长度的差异,高效完成任务,拓展应用场景。
  • 高性能表现:在 H800 GPU 上实现 3000GB/s 内存带宽与 580 TFLOPS 计算性能,轻松应对复杂模型训练与实时推理任务。
  • 实践验证:已在 DeepSeek 实际业务中成功部署,经受高并发、大数据量考验,证明其在真实生产环境中的可靠性与价值。

第五天 3FS

DeepSeek开源周第五天,DeepSeek在官方X账号宣布开源3FS,它是所有Deepseek数据访问的助推器。
地址: https://github.com/deepseek-ai/3FS
萤火虫文件系统(3FS)是一个高性能的分布式文件系统,旨在应对AI训练和推理工作负载的挑战。它利用现代SSD和RDMA网络,提供一个共享存储层,简化分布式应用程序的开发。3FS的主要特性和优势包括:
性能与易用性

  • 解耦架构:结合数千个SSD的吞吐量和数百个存储节点的网络带宽,使应用程序能够以无位置感知的方式访问存储资源。
  • 强一致性:通过链式复制与分配查询(CRAQ)实现强一致性,使应用程序代码简单且易于理解。
  • 文件接口:开发了由事务性键值存储(如FoundationDB)支持的无状态元数据服务。文件接口广为人知且无处不在,无需学习新的存储API。

多样化工作负载

  • 数据准备:将数据分析管道的输出组织成层次化的目录结构,并高效管理大量中间输出。
  • 数据加载器:通过跨计算节点随机访问训练样本,消除了预取或混排数据集的需求。
  • 检查点:支持大规模训练的高吞吐量并行检查点。
  • 推理的KVCache:提供了一种经济高效的替代方案,替代基于DRAM的缓存,提供高吞吐量和显著更大的容量。

第六天 DeepSeek-V3 / R1 推理系统

文档聚焦于DeepSeek-V3和R1版本的推理系统优化,展现了DeepSeek在高吞吐量、低延迟目标下的技术探索。链接虽然没有指向具体的代码,但其背后反映的是DeepSeek在大模型推理部署上的系统性思考。
本文的主要内容是如何使用 EP 增大 batch size,如何隐藏传输的耗时,如何进行负载均衡。

  • 大规模跨节点专家并行(Expert Parallelism / EP)
  • 计算通信重叠
  • 尽可能地负载均衡

如果所有 tokens 全部按照 DeepSeek R1 的定价[1]计算,理论上一天的总收入为 $562,027,成本利润率 545%。
DeepSeek-V3/R1的推理系统设计展现了架构创新与工程优化的完美结合,这样的秀肌肉也给业内提供了MoE类大模型部署的基本框架。跨节点的专家并行提升了效率,通信与计算的重叠缓解了分布式瓶颈,负载均衡和资源调度则体现了系统级的平衡艺术。