本栏推荐

相关阅读

快讯信息

您现在的位置是:主页 > 科技圈快讯 > 最新 >

DeepSeek团队:清北毕业生勇闯职场新天地

发布时间:2025年01月04日 14:38:01 最新 人已围观

简介DeepSeek-v3大模型以仅1/11的算力训练出超越Llama 3的开源模型,震惊了AI界。此外,雷军为挖角DeepSeek研究员罗福莉开出千万年薪的传闻,更加引发了人们对DeepSeek的关注。...

DeepSeek-v3新模型的问世,以仅1/11的算力超越了Llama 3的开源版本,给整个AI行业带来了震撼。

紧接着,关于“雷军以千万年薪招聘DeepSeek的研究员罗福莉”的消息,使得人们纷纷关注DeepSeek的人才状况

不仅科技界,整个网络对这一团队充满好奇,连小红书上也有用户对此发帖提问,这个团队究竟是什么样的存在?

在国际上,有人将创始人梁文锋的采访翻译成英文,并加入注解,试图分析这家公司的崛起之原因。

量子位整理各种资料后发现,DeepSeek团队的一大特点是年轻。

应届毕业生与在校生,尤其是出自清北的应届生,活跃于团队中。

其中一些人在2024年一边在DeepSeek开展研究,另一边刚刚收到了博士学位论文的获奖通知。

他们中有些人参与了DeepSeek LLM v1到v3的整个过程,另一些人则是在实习期间取得了显著成果。

负责提出MLA新型注意力机制与GRPO强化学习对齐算法等关键创新的,几乎都是年轻成员。

DeepSeek核心团队揭秘

2024年5月发布的DeepSeek-V2,成为这家大模型公司打入更广泛市场的关键。

其核心创新在于提出了一种新型注意力机制,在Transformer结构基础上,用MLA(Multi-head Latent Attention)替换了传统的多头注意力,从而大幅度降低了计算量和推理所需显存。

在众多贡献者中,高华佐和曾旺丁在MLA架构上做出了重要创新。

高华佐相对低调,目前已知他是北京大学物理系的毕业生。

此外,在被称为“大模型创业六小强”之一的阶跃星辰的专利信息中也能看到他的名字,但尚不确定是否是同一人。

曾旺丁则来自北京邮电大学,其研究生导师是该校人工智能与网络搜索教研中心的主任张洪刚。

DeepSeek-V2的工作还涉及一项关键成就——GRPO。

在DeepSeek-V2发布的前三个月,DeepSeek-Math问世,提出了GRPO(Group Relative Policy Optimization)这一PPO的变体RL算法,该算法舍弃了critic模型,改为基于群体得分来估算baseline,从而显著降低了对训练资源的需求。

Tags: 清华大学  DeepSeek