0371-57123510
contact@kejianyi.cn

美国难以留住顶尖人才!哈佛教授深感惋惜,曾是DeepSeek核心工程师之一

在当今科技飞速发展的时代,AI 无疑是最具影响力的领域之一,它的发展深刻地改变着全球的科技格局和经济走向。而在 AI 领域的激烈竞争中,人才的重要性不言而喻,顶尖人才往往能成为推动技术突破和产业发展的关键力量。近期,一个关于 AI 人才的消息引发了广泛关注。政治学家、哈佛大学教授、前国防计划助理部长 Graham Allison 在 X 平台上的提问:“谁曾错失了 DeepSeek?” 瞬间引起了 AI 圈的热议。

原来,DeepSeek 多模态团队的第 4 位工程师潘梓正,在回国之前,曾在英伟达实习了 4 个月,并且拿到了英伟达的全职邀约。然而,最终他却毅然选择归国加入 DeepSeek。这一决定看似简单,实则影响深远。潘梓正深度参与了 DeepSeek 的 R1 模型开发,在 DeepSeek 多模态团队中扮演着举足轻重的角色。如今,DeepSeek 的日活数已经达到 ChatGPT 的 23%,每日应用下载量接近 500 万,其发展势头迅猛,已然成为 AI 领域的一颗耀眼新星。

潘梓正

Graham Allison 对此痛心疾首,他认为潘梓正的回国,如同当年钱学森回国一样,对美国的 AI 领域造成了巨大的冲击。他直言,DeepSeek 的成功已经颠覆了人们对美国 AI 主导地位的大部分认知,这也给美国敲响了警钟,必须更加重视吸引和留住人才,尤其是来自中国的优秀人才。

从历史经验来看,顶尖人才对一个国家的科技发展至关重要。美国原本在 AI 领域占据着领先地位,拥有众多顶尖的科研机构和科技企业,吸引着全球的优秀人才。但此次DeepSeek 的发展,无疑让美国感受到了人才流失的危机。

潘梓正的抉择

潘梓正的学术背景十分亮眼,他在学术道路上一步一个脚印,积累了深厚的专业知识。

2021 年,他加入蒙纳士大学(Monash University)ZIP Lab 攻读计算机科学博士,导师是 Bohan Zhuang 教授和 Jianfei Cai 教授。在这期间,他专注于深度神经网络效率的研究,在模型部署、Transformer 架构优化、注意力机制、推理加速和内存高效训练等领域进行了深入探索,发表了多篇具有影响力的论文。比如在论文《Fast vision transformers with hilo attention》中,他提出的创新方法有效提升了视觉 Transformer 的运行速度,在 NeurIPS 2022 会议上获得了广泛关注,该论文的引用次数截至目前已达到 189 次。

在此之前,他分别获得阿德莱德大学(University of Adelaide)计算机科学硕士和哈尔滨工业大学(威海)软件工程学士学位。扎实的本科和硕士学习,为他后续的学术研究奠定了坚实的基础。在阿德莱德大学攻读硕士期间,他积极参与多个科研项目,锻炼了自己的实践能力和科研思维。

2023 年夏天,潘梓正迎来了在英伟达 AI 算法组担任研究实习生的机会。在实习期间,他充分展示了自己在 AI 领域的卓越才能。他参与的多个项目取得了显著进展,提出的一些算法优化方案,有效提高了模型的运行效率和准确性,得到了英伟达内部的高度认可。他在团队中积极与同事交流合作,分享自己的研究成果和见解,为团队带来了新的思路和活力。也正因如此,英伟达向他抛出了全职邀约,这无疑是对他能力的极大肯定。

然而,面对英伟达的高薪和优渥的工作环境,潘梓正却没有丝毫犹豫,毅然选择了加入当时规模还很小的 DeepSeek。这一决定背后,有着多方面的深层原因。从个人发展角度来看,潘梓正渴望在一个更具创新性和挑战性的环境中施展自己的才华。当时的 DeepSeek 虽然团队规模小,但充满了创新活力和无限潜力。

在这里,他能够参与到从无到有的项目开发中,拥有更多的自主权和发挥空间,可以将自己的想法和研究成果直接应用到实践中。而在英伟达这样的大型企业,虽然资源丰富,但层级结构相对复杂,项目开发往往受到各种流程和规范的限制,个人的创新想法有时难以迅速得到实施。

从国家情怀层面来说,潘梓正始终心系祖国的科技发展。他深知,随着中国在 AI 领域的快速崛起,国内对于顶尖 AI 人才的需求极为迫切。回国加入 DeepSeek,能够为中国的 AI 事业贡献自己的力量,推动中国在全球 AI 竞争中占据更有利的位置。这种为国家科技进步而奋斗的使命感,是他做出回国决定的重要动力。

DeepSeek 的崛起与影响力

DeepSeek 的发展现状


在 AI 市场的激烈竞争中,DeepSeek 迅速崛起,展现出强大的竞争力。其用户增长迅猛,日活数已达到 ChatGPT 的 23%,每日应用下载量接近 500 万,用户基础不断扩大。在苹果应用商店中,DeepSeek 曾霸占 157 个国家/地区的榜首,其中包括美国。其累计下载量在 18 天内突破 1600 万,25 天内达到约 4000 万,远超 ChatGPT 首月 900 万的下载量,充分体现了其在市场推广和用户获取方面的卓越成效。


DeepSeek 的技术突破


DeepSeek 的技术突破是其崛起的关键。在模型架构方面,DeepSeek 采用创新的 MoE(混合专家)架构和 MLA(多头潜注意力)技术。MoE 架构通过将任务智能分配给擅长处理该任务的专家模块,减少了不必要的计算量,提升了效率并降低成本。以 DeepSeek-V3 为例,其拥有 6710 亿参数,但每个输入仅激活 370 亿参数。MLA 技术则通过低秩联合压缩机制,显著减少长文本处理中的内存占用,优化训练过程。DeepSeek 成功整合了 RoPE 和 MoE 技术,展示了其深厚的技术实力。
此外,DeepSeek 在训练成本上实现了重大突破。其训练成本仅为 550 万美元,远低于 OpenAI 等公司开发类似模型的数亿美元费用。通过优化 GPU 调度,DeepSeek 提高了 GPU 利用率,降低了训练成本。
DeepSeek 的崛起对全球 AI 格局产生了重大影响。它打破了美国在该领域的长期主导地位,推动全球 AI 竞争格局多元化。此前,美国的 OpenAI、谷歌等企业在技术和市场份额上占据绝对优势,但 DeepSeek 的出现,使其感受到前所未有的压力。
在市场份额上,DeepSeek 凭借高性价比的产品和服务吸引了众多用户,冲击了美国 AI 企业的市场份额,促使企业和开发者寻求更经济高效的 AI 解决方案。在技术创新方面,DeepSeek 的成功激励其他国家和企业加大 AI 研发投入,推动了全球 AI 技术进步。它证明,创新的技术路径和高效研发模式同样可以实现技术突破,而非仅依赖巨额资金和强大算力。
此外,DeepSeek 的崛起也引发了全球对 AI 发展模式和人才竞争的重新思考。各国意识到,人才是 AI 领域的核心竞争力,拥有顶尖人才才能在竞争中立于不败之地。这促使各国重新审视 AI 发展战略,加大对技术研发和人才培养的支持力度。