本栏推荐

相关阅读

快讯信息

您现在的位置是:主页 > 科技圈快讯 > 最新 >

国产AI明星DeepSeek V3意外自称ChatGPT引发争议

发布时间:2024年12月29日 23:41:12 最新 人已围观

简介近期大模型圈的热门话题无疑是DeepSeek V3。在网友们积极测试的同时,一个小bug引发广泛讨论——DeepSeek V3竟然因为缺少一个问号,错误地自称为ChatGPT。...

最近大模型领域最热议的话题非DeepSeek V3莫属。

在众多用户体验测试的同时,一个bug引发了热烈讨论——

仅仅因为一个问号的缺失,DeepSeek V3竟然自称是ChatGPT。

连讲笑话的结果也同样如ChatGPT的标准:

值得注意的是,DeepSeek V3之所以受关注,还有一个原因是它的训练成本仅为557.6万美元。

因此,有人开始猜测:它是否是在ChatGPT的基础输出上进行的训练呢?

巧合的是,Altman也发了一条状态,似乎有些微妙的暗示……

不过,DeepSeek V3并不是第一个出现这类错误的大模型。

例如Gemini曾自称为百度的文心一言……

这种情况究竟是怎么回事?为何DeepSeek V3会出现这样的错误?

首先要明确的是,根据网友们目前的讨论,DeepSeek V3是在ChatGPT输出基础上训练的可能性不大。

这一点的原因,如网友Riley Goodside所总结——因为ChatGPT的影响随处可见。

就算DeepSeek V3确实是以ChatGPT的输出为基础进行训练,也并不重要。

在ChatGPT之后发布的大模型几乎都接触过它的输出。

例如ShareGPT,作为一个颇为常见的ChatGPT对话数据集,很多人试图在它及其他ChatGPT数据源上进行优化,然而即便如此,依然无法匹敌DeepSeek V3的性能。

随后,Riley Goodside分享了DeepSeek V3报告中的一些证明:

如果使用了ChatGPT的数据,DeepSeek V3在质量方面的一些问题将无法解释。

例如在Pile测试中(基础模型压缩Pile效果),DeepSeek V3的得分几乎与Llama 3.1 405B相当,这与其是否接触ChatGPT的数据无关。

报告还指出,95%的GPU小时用于基本模型的预训练,即便与ChatGPT数据相关,这部分也更可能是在后期训练阶段中发生(剩下的5%)。

与其讨论DeepSeek V3是否使用了ChatGPT的数据,不如关注大模型频繁出现“报错家门”的原因。

TechCrunch对此现象给出了独到的见解:

因为AI公司获取数据的主要来源——互联网,正在被大量AI内容污染。

Tags: AI  大模型