您现在的位置是:主页 > 品牌 > 阿里巴巴 >
阿里云GPU云服务全面优化:AI大模型推理性能实现翻倍提升
发布时间:2024年07月19日 16:39:54 阿里巴巴 人已围观
简介阿里云于7月19日发布升级版GPU云服务,优化后的GPU套件使多GPU推理性能可提升至100%。此外,针对广泛应用于GPU计算的容器技术,阿里云还推出ACK云原生AI套件,旨在为开发者和企业提供...
新标360快讯7月19日报道,阿里云发布了全面升级的GPU云服务,通过全新优化的GPU套件,支持多GPU推理服务性能可显著提高100%。
为了更好地支持广泛使用的容器技术,阿里云推出了ACK云原生AI套件,帮助开发者和企业更高效地开发与部署AI应用,加速大型模型的应用落地。
随着AI大模型的规模扩展及应用领域的不断增加,单一GPU已无法满足所有推理需求,进入了多GPU推理时代。如何有效连接GPU资源,以提升多GPU推理的性能,成为当前的关键挑战。
阿里云通过对底层AI通信加速库DeepNCCL的深入优化,使得GPU云服务在推理场景下表现得更为出色:在相同的硬件环境下,Token输出的吞吐量至少提升了14%,首个Token的延迟减少了15%。
经过深度优化,推理加速性能显著提升,Token处理能力提升至100%,相同资源能够满足两倍的业务需求,利用Kubernetes容器集群来调用GPU算力已成为执行AI大模型任务的主流方式。
ACK容器服务提供了自动化编排及高效管理、调度GPU的能力,使得模型的部署和扩展变得更加简便。
为进一步提高AI应用的运维效率,阿里云推出了ACK云原生AI套件,强化了Kubernetes在GPU调度、细粒度共享、AI任务调度、训练数据加载与大模型推理服务启动等领域的能力,相较于开源方案有了显著提升。
例如,在满足AI任务频繁从远程存储加载数据的需求上,ACK云原生AI套件能够提升训练数据的读取性能超过30%,并将大模型推理服务的冷启动延迟降低70%以上。
拥有超过1000万活跃用户的国产AI绘画工具海艺AI,已成为通过ACK调用阿里云GPU云服务的先行者。
之前,用户在海艺AI上生成一张图片平均耗时为20秒,在高峰期可能需要等待几分钟;而在采纳阿里云GPU云算力及ACK容器服务后,海艺AI实现了模型切换的流畅体验,推理时间缩短至3.95秒,整体性能提升不低于50%。
根据最新的Forrester全球AI基础设施解决方案研究报告,阿里云的综合产品能力指标排名全球第二,已成为中国AI大模型的基础设施。
一大批企业和机构,如零一万物、百川智能、智谱AI、昆仑万维、vivo、复旦大学及巨人网络,均在阿里云上进行大模型的训练,并外部提供服务。
小鹏汽车、联想、德勤、微博、完美世界、喜马拉雅等企业已接入阿里云通义大模型,借助阿里云为消费者及客户提供丰富的AI应用服务。