本栏推荐

相关阅读

快讯信息

您现在的位置是:主页 > 科技圈快讯 > 最新 >

OpenAI 直播终极大招:下一代推理模型 o3 震撼登场

发布时间:2024年12月21日 16:25:22 最新 人已围观

简介OpenAI 在技术分享直播活动的最后一天发布了下一代推理模型 o3,是 o1 推理模型的升级版。...

OpenAI 把其最重要的先进产品,放在了为期 12 天的技术分享直播活动的最后一天! 周五的时候,OpenAI 发布了下一代的推理模型 o3,这是今年早些时候推出的 o1 推理模型的升级版。确切地说,o3 是一个模型系列——就像 o1 一样,同时有 o3 和 o3-mini 两个版本,后者是一个更小的精简版模型,针对特定任务进行了微调。 OpenAI 声称,至少在某些条件下,o3 模型可以接近实现 AGI。 AGI 是“通用人工智能”的缩写,指的是能够完成人类所能完成的任何任务的人工智能。OpenAI 对此有自己的定义:“在最具经济价值的工作上胜过人类的高度自主系统”。 实现 AGI 将是一个大胆的声明。对 OpenAI 来说,这背后也具有现实意义。根据 OpenAI 与其亲密合作伙伴和投资方微软的协议条款,一旦 OpenAI 达到 AGI,就没有义务再让微软使用其最先进的技术(即那些符合 OpenAI AGI 定义的技术)。 OpenAI 首席执行官山姆·奥尔特曼(Sam Altman)介绍说,OpenAI 计划在 1 月底前正式推出 o3 mini,之后推出完整版的 o3。该公司期待更强大的大型语言模型能够超越现有模型,吸引新的投资和用户。 OpenAI 在一篇博客文章中表示,o1 模型已经能够推理复杂的任务,与以前的科学、编码和数学模型相比,它能够解决更具挑战性的问题。而 OpenAI 新推出的 o3 和 o3 mini 模型目前正在进行内部安全测试,它们将比之前推出的 o1 模型更加强大。 OpenAI 在两年前发布了 ChatGPT,拉开了 AI 军备竞赛的序幕。ChatGPT 是一款聊天机器人,最初由版本为 GPT-3.5 的大型语言模型驱动。OpenAI 随后在 2023 年推出了 GPT-4,并表示其更准确、更具创造性。最近,OpenAI 又推出了其首个推理模型 o1。 该公司发言人表示,OpenAI 决定不将下一代新模型命名为 o2,“是出于对同名英国电信运营商 o2 的尊重”。奥尔特曼当天在直播中也调侃道,“按照 OpenAI 非常非常不擅长命名的伟大传统,它将被命名为 o3。” o3 有多强大? 那么,o3 具体的表现究竟有多强大呢? 根据 OpenAI 的介绍,o3 模型在 ARC-AGI 基准上获得了破纪录的分数。ARC-AGI 由 Keras 之父 François Chollet 开发,主要是通过图形逻辑推理来测试模型的推理能力。以 100%为最高分的 ARC-AGI 评估结果显示,在低计算场景中,o3 得分为 75.7%,而在高计算测试中,它达到了 87.5%。 这意味着,o3 的最佳成绩超过了标志着达到人类水平的门槛 85%。作为对比,目前开放的 o1 模型的得分仅在 25%到 32%之间。o3 的表现几乎是 o1 的三倍。 在其他基准测试中,o3 也明显脱颖而出。 在衡量编程能力的 Codeforces Elo 评分中,o3 取得了 2727 的 Elo 评分,而 o1 评分仅为 1891。事实上,o3 mini 在中等推理时间模式下的表现已经足以超越 o1。 在 OpenAI 于 8 月推出的 SWE-bench Verified 代码生成评估基准中,o3 的准确率为 71.7%,比 o1 高出了 22.8 个百分点。 o3 还在 2024 年美国 AIME 数学竞赛中取得了 96.7%准确率的高分,只错了一道题,并在 GPQA Diamond(一套研究生水平的生物、物理和化学试题)中取得了 87.7%准确率的高分。 尤为值得一提的是,o3 在 EpochAI 的“FrontierMath”基准测试中创造了新纪录,解决了 25.2%的问题——在该项测试中没有其他模型能超过 2%。 Epoch AI 此前联合了六十多位全球数学家,其中包括教授、IMO 命题人、菲尔兹奖获得者,共同推出了全新的数学基准 FrontierMath。这些数学问题从奥赛难度到当今的数学前沿,涵盖了目前数学研究的所有主要分支——从数论和实数分析中的计算密集型问题到代数几何和群论中的抽象问题。 行业竞争与风险 毫无疑问,o3 模型在上述测试中的表现令人惊叹。无论是在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3 都明显优于 o1。 OpenAI 总裁 Greg Brockman 表示,“我们最新的推理模型 o3 是一个突破,在我们最困难的基准上有了阶跃式的改进。我们现在开始进行安全测试和红队演练。” 而迈向类人智能的巨大突破,显然也引发了一些人对 AI 安全性的担忧。 风险可能确实存在。人工智能安全测试人员发现,与传统的“非推理”模型相比,o1 的推理能力使其试图欺骗人类用户的比例更高,而 Meta、Anthropic 和谷歌的领先人工智能模型也是如此。 o3 试图欺骗用户的比例可能比它的前身更高;一旦未来 OpenAI 的红队测试结果出炉,人们或许就能了解具体情况。奥尔特曼也表示,在 OpenAI 发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和降低这些模型的风险。 在公开发布 o3 模型之前,OpenAI 也将开放外部研究人员测试 o3 模型的申请流程,申请将于 1 月 10 日截止。 近期,在 OpenAI 首批推理模型 o1 发布之后,一些该公司的主要竞争对手也纷纷推出了推理模型。本月早些时候,谷歌发布了其旗舰模型 Gemini 的新版本,据称其速度是上一代模型的两倍,可以“思考、记忆、计划,甚至代表你采取行动”。Meta 首席执行官马克·扎克伯格最近也透露,计划于明年推出 Llama 4。 这些动向表明,人工智能领域的竞争日益激烈,各方都在努力创造能够解决复杂问题的更智能模型。 而 OpenAI 周五推出的 o3 模型,也为其为期 12 天的直播产品发布会画上了圆满句号。在早前的直播中,这家初创公司推出了更昂贵的新 ChatGPT Pro 订阅选项(每月 200 美元),并正式推出了 AI 视频生成模型 Sora Turbo 以及其他新产品。ChatGPT 搜索功能也全面升级,新增了地图集成、实时搜索等功能,向所有用户开放。

Tags: OpenAI o1  OpenAI