本栏推荐

快讯信息

发布时间：2025年01月04日 14:38:01 最新人已围观

简介DeepSeek-v3大模型以仅1/11的算力训练出超越Llama 3的开源模型，震惊了AI界。此外，雷军为挖角DeepSeek研究员罗福莉开出千万年薪的传闻，更加引发了人们对DeepSeek的关注。...

DeepSeek-v3新模型的问世，以仅1/11的算力超越了Llama 3的开源版本，给整个AI行业带来了震撼。

紧接着，关于“雷军以千万年薪招聘DeepSeek的研究员罗福莉”的消息，使得人们纷纷关注DeepSeek的人才状况。

不仅科技界，整个网络对这一团队充满好奇，连小红书上也有用户对此发帖提问，这个团队究竟是什么样的存在？

在国际上，有人将创始人梁文锋的采访翻译成英文，并加入注解，试图分析这家公司的崛起之原因。

量子位整理各种资料后发现，DeepSeek团队的一大特点是年轻。

应届毕业生与在校生，尤其是出自清北的应届生，活跃于团队中。

其中一些人在2024年一边在DeepSeek开展研究，另一边刚刚收到了博士学位论文的获奖通知。

他们中有些人参与了DeepSeek LLM v1到v3的整个过程，另一些人则是在实习期间取得了显著成果。

负责提出MLA新型注意力机制与GRPO强化学习对齐算法等关键创新的，几乎都是年轻成员。

DeepSeek核心团队揭秘

2024年5月发布的DeepSeek-V2，成为这家大模型公司打入更广泛市场的关键。

其核心创新在于提出了一种新型注意力机制，在Transformer结构基础上，用MLA（Multi-head Latent Attention）替换了传统的多头注意力，从而大幅度降低了计算量和推理所需显存。

在众多贡献者中，高华佐和曾旺丁在MLA架构上做出了重要创新。

高华佐相对低调，目前已知他是北京大学物理系的毕业生。

此外，在被称为“大模型创业六小强”之一的阶跃星辰的专利信息中也能看到他的名字，但尚不确定是否是同一人。

曾旺丁则来自北京邮电大学，其研究生导师是该校人工智能与网络搜索教研中心的主任张洪刚。

DeepSeek-V2的工作还涉及一项关键成就——GRPO。

在DeepSeek-V2发布的前三个月，DeepSeek-Math问世，提出了GRPO（Group Relative Policy Optimization）这一PPO的变体RL算法，该算法舍弃了critic模型，改为基于群体得分来估算baseline，从而显著降低了对训练资源的需求。

下一篇：没有了