英伟达高级研究科学家Jim Fan在评价DeepSeek R1模型时就这样说道:“我们生活在这样一个时代:一个不是美国公司的AI企业却实现了 OpenAI成立时的使命——做真正开放的前沿研究、为所有人赋能。”

DeepSeek 是何许人也?他有哪些特殊的背景?他为什么那么牛逼?会引起市场恐慌。
28182204-2025-01-28T10:22:15.png

01 DeepSeek 产品史

DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司(隶属量化巨头幻方量化),成立于2023年7月17日,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。

公司自成立以来,高效而密集的发布和升级了系列产品,速度令人惊叹中国创业速度。

梁文锋,男, 1985年出生于广东省湛江市,浙江大学毕业,拥有信息与电子工程学系本科和硕士学位。杭州幻方科技有限公司、DeepSeek创始人。

具体产品路径如下:

  • 2024年1月5日,发布DeepSeek LLM,这是深度求索的第一个大模型。 
  • 2024年1月25日,发布DeepSeek-Coder。 
  • 2024年2月5日,发布DeepSeekMath。 
  • 2024年3月11日,发布DeepSeek-VL。 
  • 2024年5月7日,发布DeepSeek-V2。 
  • 2024年6月17日,发布DeepSeek-Coder-V2。 
  • 2024年9月5日,DeepSeek 官方更新 API 支持文档,宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat 两个模型,升级推出全新的 DeepSeek V2.5 新模型。 
  • 2024年12月13日,发布用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2。 
  • 2024年12月26日晚,AI公司深度求索(DeepSeek)正式上线全新系列模型DeepSeek-V3首个版本并同步开源。
  • 2024年12月30日,中信证券研报指出,DeepSeek-V3的正式发版引起AI业内广泛高度关注,其在保证了模型能力的前提下,训练效率和推理速度大幅提升。它以极低的训练成本,实现了与GPT-4o等顶尖模型相媲美的性能,震惊了业界。
  • 2025年1月27日,推出新模型 DeepSeek-R1,Deepseek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。
  • 2025年1月28日,推出多模态模型Janus-Pro,可以同时进行多模态理解和图像生成任务。

02 团队阵容:只招募 1%的天才

“只招1%的天才,去做99%中国公司做不到的事情。”面试过 DeepSeek 的应届生这样评价其招聘风格。

DeepSeek团队阵容以年轻化、高学历和顶尖学术背景为特点,主要由来自清华、北大、北航等国内顶尖高校的应届博士毕业生、在读生和硕士生组成。

团队成员大多没有海外经历,完全是中国本土人才,且核心岗位多由近一两年毕业的人员担任。

团队特点:

  • 平均年龄约28岁,95后占比超70%,90后占比50%以上。
  • 团队成员大多拥有硕士及以上学位,其中40%以上拥有博士学位。
  • 团队注重能力而非经验,强调年轻人的潜力和创新能力

核心成员:

  • 高华佐:清华博士,参与了MLA架构的开发。
  • 邵智宏:清华博士,曾参与微软研究院项目,是DeepSeek-Pro和DeepSeek-Coder等项目的开发者之一。
  • 朱琪豪:北大博士,发表多篇顶级会议论文,主导开发了DeepSeek-Coder-V1。
  • Peiyi Wang:北大博士,参与了DeepSeek数学建模项目。
  • 曾旺丁:北大博士,参与了DeepSeek V2的开发。
  • 代达劢:北大博士,参与了DeepSeek V3的开发。
  • 王炳宣、吴作凡、赵成钢等其他成员也在不同领域有所贡献。
  • 实习生如辛华良(清华博士生),在深度学习领域有重要研究贡献。
  • 其他成员如孙景翔(清华博士生)、周雨杨等也参与了DeepSeek相关项目。

03 为什么 DeepSeek 让华尔街担忧

DeepSeek R1每百万个token的查询成本仅为0.14美元,而OpenAI的成本为7.50美元,成本降幅高达惊人的98%。DeepSeek R1的问世,宣告AI训练与推理成本大幅缩减。DeepSeek 证明打造出堪比o1的大模型并不需要无脑堆积“英伟达AI GPU”在不到600万美元的极低投入成本和2048块性能远低于H100与Blackwell的H800芯片条件下,DeepSeek团队打造出性能堪比OpenAI o1的开源AI模型,相比之下Anthropic与OpenAI训练成本高达10亿美元。这也意味着未来大模型训练/推理比拼的不再是动辄千万亿美元的AI GPU算力战,这打破了人们对于AI 发展必须依赖于大量 GPU 的范式。DeepSeek R1横空出世也重磅宣告随着训练/推理步入“极致压缩+高效强化训练+AI推理算力大幅简化”的低成本新范式。据了解,UC伯克利、港科大、HuggingFace等顶级学术团队与AI科技大拿们在上周纷纷成功复现DeepSeek,只用强化学习,没有监督微调,30美元就能见证所谓的“啊哈时刻”,即Aha moment,也被称作所训练的AI大模型的“顿悟时刻”。

全球AI大模型,或许正在进入下一分水岭。

DeepSeek 的低成本+超高效+不输于o1的大模型综合性能,源于对大模型训练流程的每个环节都施加了“极致工程”与“精细微调”,幅降低大模型训练/推理成本。比如,以极致工程为导向的高效训练与数据压缩策略,通过多层注意力(MLA)——尤其对Query端进行低秩化,从而在训练时减少激活内存负担,还包括FP8 混合精度训练、DualPipe 并行通信、专家门控(MoE)负载均衡等手段。

让 DeepSeek 在训练阶段将硬件资源利用率最大化,减少“不必要的算力浪费”,以及“强化学习(即RL)+蒸馏+专业数据优化”的创新型AI训练举措,无需依赖监督微调(SFT)或人工标注数据。DeepSeek 在完成主干预训练后,针对数学、编程、长上下文等“高价值能力”做强化学习或蒸馏精调。通过少量GPU小时的“深度强化学习”大幅提升特定任务指标,而无需对整套模型做全量高成本训练,尤其是“R1-Zero”完全不用预先提供思维链示例及复杂奖励模型,而是只用简单的“对错奖励 + 格式奖励”,便通过训练算法能让AI大模型自发地在推理过程中产生“顿悟(Aha Moment)”式的思考。

简而言之,DeepSeek通过“极致工程化、并行优化以及精筛数据”为核心来不断削减通用算力的“无效消耗”,把资源集中到最能提升模型性能的核心模块(注意力头、关键算子、RL/蒸馏微调等),展示了“极致工程化 + 后训练端蒸馏 + 专业数据整合+主攻强化训练”新范式如何在有限GPU 资源下逼近乃至超越行业主流大模型性能,对传统“巨额烧钱”模式提出了强力挑战。

因此DeepSeek将硬件和算法的潜能最大化挖掘——这与过去很长一段时间美国科技大厂们“粗放式烧钱”在某种程度上形成鲜明对比。DeepSeek引领的“低成本算力浪潮”已经令投资者们开始怀疑美国AI大厂们支出的合理性,如果这些科技巨头AI巨额投入仍然无法产生令投资者感到满意的创收与盈利,以及超出市场预期的业绩数据,可能迎来比去年夏季时期规模更大的“科技股抛售浪潮”。

04 小结

Meta员工称公司内部因DeepSeek模型而进入恐慌模式,并提到DeepSeek-V3在基准测试中,已经让(Meta推出的)Llama 4相形见绌,而更让人难堪的是一家“仅用550万美元训练预算的中国公司”就做到这一点。Meta生成AI小组和基础设施团队的经理和工程师已开设了四个作战室来学习DeepSeek的工作原理。

“DeepSeek可能是个国运级别的科技成果。”--游戏科学创始人、CEO,《黑神话:悟空》制作人冯骥。

DeepSeek正在迅速破圈,成为新年的第一个爆炸性话题。

清华大学计算机系长聘副教授刘知远表示,DeepSeek 的出圈,恰恰证明了我们的竞争优势所在,通过有限资源的极致高效利用,实现以少胜多。R1的发布,正表明我们与美国的AI实力差距明显缩小了。

《经济学人》也在最新一期报道中称:“DeepSeek以其低成本的训练与模型设计的创新同步改变科技行业。”

美国总统特朗普表示,中国人工智能初创公司DeepSeek的崛起应当为美国企业敲响“警钟”,美国公司“需要专注于竞争以赢得胜利。”

原文:https://mp.weixin.qq.com/s/CwiJcDwTUnqy0RvWBG1H0w