本栏推荐

快讯信息

发布时间：2023年08月16日 14:04:53 阿里巴巴人已围观

简介阿里云于8月16日推出了数字人视频生成工具Live Portait，用户只需上传一张照片并提供一段文本或语音，即可生成开口说话的数字人视频。这项新功能可广泛应用于视频直播、聊天机器人...

新标360快讯8月16日发布，阿里云推出了全新的数字人视频生成工具Live Portait，用户只需上传一张照片及文本或语音，即可生成一段会说话的数字人视频。

该功能可以用于视频直播、智能聊天机器人、企业市场推广等多个场合。目前，用户已经可以在魔搭社区创空间体验这一工具。

随着对话大型模型和AI绘画模型的热潮，业界对于生成式AI的研究也逐步向多种模态拓展，AI视频生成已经成为一个备受关注的技术。该技术能够将文本或音频等信息转化为面部动作为基础，从而驱动生成的影像角色进行动画表达，显著降低视频拍摄和制作的难度。

新推出的Live Portait工具由运动模块与生成模块构成，采用了阿里云自主研发的口型预测算法，使得生成的口型准确性远超传统技术；在训练阶段，该工具加入了姿态显性控制，用户无需底板视频就可以生成多种动作的视频，极大提升了数字人发言时的真实感。

同时，结合主动眼神控制技术，Live Portait能为眼球增添自然运动，使生成结果在视觉效果上更接近真实人类表现。据了解，Live Portait的相关技术已被国际顶尖AI会议如CVPR和ICCV收录。

根据魔搭社区提供的信息，用户在Live Portait上传照片后，可以选择文本驱动或音频驱动两种模式。在文本驱动下，该工具提供多达28种声音，包括普通话、英语、粤语和童声等。此外，Live Portait还提供轻量模型选项，便利用户更快生成视频。

算法负责人张邦表示：“Live Portait融合了团队多项自主创新技术，例如只需一张图片即可生成逼真的面部动画，突破了传统对抗生成网络的局限。随着技术不断进步，图生视频的发展潜力巨大，未来有望成为企业降低成本、提升效率的重要工具。”

据了解，该团队的研究方向涵盖数字人、3D模型AI生成、高真实感渲染与自然人机交互等领域，至今已发表超过50篇国际顶级会议的论文。