本栏推荐

快讯信息

发布时间：2024年12月23日 17:06:06 最热人已围观

简介OpenAI 备受瞩目的 GPT-5 并未在近期宣传中出现，且该公司首席执行官曾表示不会在 2024 年推出名为 GPT-5 的模型。...

以下是重写后的内容：

OpenAI 的 GPT 项目一直备受业界瞩目，然而近期该公司的宣传热火朝天，备受期待的 GPT-5 却不见踪影。

去年 11 月，OpenAI 首席执行官奥尔特曼曾表示，2024 年不会推出名为 GPT-5 的模型。但据知情人士透露，OpenAI 的最大投资者微软曾预计在 2024 年年中能看到该模型。

还有人称，到目前为止，该项目已筹备超过 18 个月，但代号为 Orion 的未来 GPT-5 模型的氛围并不友好。该模型已进行了至少两次大规模训练，每次训练都需数月时间处理大量数据，但每次训练后都会出现新问题。

了解该项目的人士指出，Orion 目前最多只比 OpenAI 的公开模型好一点，距离该公司所谓的“重大飞跃”还很遥远，也无法说服投资人投入目前的巨大成本。据估计，该模型为期六个月的训练仅在计算成本方面就“烧掉”了约 5 亿美元。

危险的是，OpenAI 在 10 月的最新估值达到 1570 亿美元，受到投资者的追捧。但分析人士指出，这一估值很大程度上基于奥尔特曼的乐观预测，即 GPT-5 将在各学科和任务上表现出博士水准，较目前 GPT-4 的高中生水平有质的飞跃。

这意味着如果 GPT-5 不能在合理时间内给出合理亮相，OpenAI 的繁荣可能如泡沫般破灭，成为噩梦的开始。

数据“烧”尽

OpenAI 原本希望 GPT-5 能够解锁新的科学发现，完成预约或航班预订等类人类决策行为，且犯错概率更小，或至少对 AI 幻觉有所警惕。

但内部人士透露，OpenAI 的预期过于乐观，GPT-5 在数据问题上遭遇了难以想象的挫折。

人工模型在训练过程中需要不断测试，可能持续很长时间。在此期间，模型将输入数万亿个单词片段，即所谓的 token。未来的人工智能模型吞噬 token 的数量将是目前模型的十倍甚至更多。

GPT-4 的训练使用了约 13 万亿个 token，按一千人每天协作 5000 个单词计算，这种规模的团队在几个月内才能生产十亿个 token，而花费据奥尔特曼称超过 1 亿美元。

因此，GPT-5 模型面临的关键问题是：数据不足。此前的模型使用了新闻文章、社交媒体贴文和科学论文，但研究人员表示，公共互联网上的数据已不够，需要更多样、更高质量的数据来使 GPT-5 更强大。

难以掉头

OpenAI 目前的解决方案是从头开始创建数据，如招聘人员编写新的软件代码或解决数学问题，供 Orion 学习。这些员工包括软件工程师和数学家，必要时还需向 Orion 解释自己的工作。