本栏推荐

相关阅读

快讯信息

您现在的位置是:主页 > 品牌 > 百度 >

2024年大模型评估报告出炉:百度在七大评估维度中独占鳌头成为领先厂商

发布时间:2024年06月12日 22:06:44 百度 人已围观

简介国际数据公司IDC于6月12日发布了《2024中国大模型市场主流产品评估》,对11家大模型厂商的16款产品进行了多维度评测。结果显示,百度在评估中位于第一梯队,成为唯一在所有7个基础...

今年6月12日,国际数据公司IDC发布了《中国大模型市场主流产品评估,2024》。此次评估从基础能力到应用能力等七个维度,对11家大模型企业的16款核心产品进行了测试。

测试结果表明,百度名列第一梯队,是唯一一家在所有七个维度上均表现出色的公司。

百度的生成式AI产品文心一言和文心一格在问答理解、推理、创作表达、数学和代码等基础能力,以及面向消费者的通用场景和面向企业的特定行业应用能力等方面都展现了领先地位。在其他参与评测的厂商中,阿里在六个维度上表现优异,而OpenAI的GPT-4和商汤分别获得五项优势。

IDC此次通过成立产品测试团队,采用实测手段,对基础大模型及相关产品进行评估,并邀请了外部专家团队深入分析各产品在答案的准确性和合理性等方面表现。在审核委员会的监管下,最终形成各厂商的评估结果,为用户在产品选择上提供参考。

参加此次评估的厂商包括百度、OpenAI、阿里、商汤、科大讯飞、百川、智谱和昆仑万维等11家企业。

在基础能力评测中,各大模型产品在问答理解、推理和创作表达等方面表现出色。百度文心大模型在多模态、安全性和文本风格转移等细分评估中取得优异成绩,展示了其强大的基础模型能力。在对逻辑和推理能力的考验中,文心大模型同样展现了杰出的体系化、逻辑和抽象思维。在代码类的所有六个子维度中,百度均被评为优势厂商。根据了解,基于文心大模型,百度推出了智能代码助手Comate,目前其整体使用率已达到46%,新生成代码的比例为27%。

应用能力评估主要考察大模型产品在办公工具和生活助手等通用场景及特定行业应用中的表现。评测结果显示,百度文心大模型在搜索、邮件撰写、生成图表等办公使用,以及在衣食住行、生活服务和创意闲聊等生活助手领域均具备优势。此外,文心大模型在能源、金融、媒体、医疗、通信、制造、交通和互联网等多个行业中形成了广泛的应用生态,成功解决了许多实际场景的问题。

据公开信息,文心大模型4.0已于2023年10月发布,全面升级了基础模型,显著提升了理解、生成、逻辑和记忆能力。目前,文心一言的累计用户已达到2亿,日均调用次数也达到了2亿。

此外,报告还指出,百度智能云推出了千帆大模型平台,致力于为用户提供一站式的企业级大模型开发和服务运营解决方案。2024年5月底,百度宣布其两款核心大模型ERNIE Speed与ERNIE Lite将免费提供使用。目前,国家电网、浦发银行、中国航天、吉利、长安汽车、泰康保险、TCL、上海辞书出版社、荣耀、三星、蔚来汽车、南方电网、山东港、汽车之家、毕马威等单位已成为文心大模型的用户和合作伙伴,使其在中国产业界的应用规模达到了最广泛的水平。

Tags: 百度  大模型