本栏推荐

相关阅读

快讯信息

您现在的位置是:主页 > 品牌 > 腾讯 >

腾讯云ASR全面升级:创新推出多语言与方言混合识别技术

发布时间:2024年01月04日 16:07:11 腾讯 人已围观

简介腾讯云近日对其语音识别(ASR)方案进行了升级,利用强大的大模型能力和自研技术,结合丰富的语音数据,能够为各行业客户提供高质量的语音识别服务,满足不同的需求。...

近日,腾讯云的语音识别解决方案(Automatic Speech Recognition,ASR)基于其先进的大模型技术进行了全面升级。利用自主研发的领先语音识别技术和丰富的行业大数据资源,该方案能够为多种行业和客户需求提供优质的语音识别服务,从而精准且高效地推动各行业不断创造应用价值,并促进产业生态的繁荣。

腾讯云ASR是一个将语音转化为文字的PaaS产品,依托微信智聆实验室的创新技术,大幅提升了在复杂场景下的识别精准度,有效提高了对复杂音频及低信噪比音频的识别效果。通过业界创新的高性能引擎,该产品能够支持23种方言的自动语音识别,用户无需提前定义方言,模型就可以智能适应。同时,腾讯云ASR打破了传统ASR引擎的场景限制,可以灵活应用于线下销售、下沉市场等多种环境。

如今,腾讯云ASR已经成功应用于内部产品如微信和王者荣耀,以及各行各业,覆盖了录音质量检测、会议实时转写、语音输入法等多个应用场景,产品日调用量达到百亿次,服务的企业客户数量已超过数千个。

自主研发的多模态融合和蒸馏算法,提升语音识别的准确性

语音识别(ASR)是人工智能领域中最早的应用之一,目前许多解决方案仅能在简单场景下实现精确识别,复杂的音频环境或多声道同时对话会显著降低识别准确率。为了解决这些问题,腾讯云ASR自研的多模态融合算法、蒸馏和半监督学习等技术,显著提升了上下文理解能力,大幅减少了语音数据标注的需求,从而提升了复杂环境下的识别准确性。

借助自主研发的多模态融合算法,腾讯云在模型预训练阶段引入了大型语言模型(LLM),提高了上下文预测的准确性,解决了一些通过纯音频识别无法准确识别的场景,并在各行业的数据集中(尤其是低信噪比的数据集)取得了优异的效果。同时,利用无监督学习的方式,将大量未标注的低资源数据纳入模型训练,特别是在特定行业和方言音频的识别上取得了显著突破。

此外,腾讯云还研发了蒸馏和半监督算法,利用有监督的数据让小参数模型同时学习真实数据和知识蒸馏的数据,通过蒸馏算法让小模型掌握更多数据的相似特征,进而提升了其性能水平。

业界首创的高性能引擎,支持多语言与多方言的混合识别

随着智能汽车的普及、短视频配音和企业全球化趋势的加速,语音识别的多语种和多方言需求显著上升。因此,如何精确识别不同口音和语言,成为腾讯云在ASR大模型创新中的关键任务。

腾讯云通过应用自研新技术,构建了多项行业首创的高性能引擎,进一步增强了ASR的混合识别能力。依托该行业首创的支持多种语言和方言的混合识别引擎,腾讯云成功建立了中文方言的大模型,提升了23种方言的平均识别准确率(提升幅度超过7%),用户在识别过程中无需事先定义方言,自动适应“普通话+方言”的识别场景,从而有效满足跨地域的语音识别需求。

Tags: 腾讯