广州新闻网
国内新闻 当前位置:首页 > 国内新闻 > 正文

腾讯多媒体实验室肖玮:深度学习多角度助力语音通信,带来沉浸式音视频体验

随着5G时代的正式到来,另一场工业革命浪潮悄然来临。人工智能、物联网loT、云计算、5G等先进技术出现在公众视野中。 11月6日至7日,泰科开发商大会在北京举行。在音视频和通信专题会议上,腾讯多媒体实验室专家研究员肖伟带来了以“信号处理与新语音通信技术的深度学习、研发实践”为主题的演讲。他从语音通信面临的挑战和智能语音通信技术的发展两个方面介绍了语音通信深度学习带来的创新

(腾讯多媒体实验室专家研究员肖伟)

Techo developer conference由滕循云发起,通过主论坛、18个技术方向子论坛和一系列创新互动活动,汇聚了世界顶尖的行业专家和技术爱好者,为全球开发者打造一个开放、中立、活跃的技术平台,帮助开发者发展能力,实践创新。 会议聚集了来自世界各地的5000多名开发者,并邀请了业内150多名大玩家分享和交流前沿技术的发展。

作为多媒体技术的重要组成部分,语音通信扮演着非常重要的角色,语音通信体验已经成为创造沉浸式多媒体体验的关键一步

与模拟信号时代的语音通信相比,数字信号时代的语音通信过程要复杂得多。 “从技术层面来看,语音通信主要有三个技术挑战 “肖伟认为,首先,在声源级,如何获得一个近似无噪声、无回声和无混响的声源?第二,不同的压缩和传输标准如何在传输链路级别兼容并确保稳定传输?第三,在工程层面上,如何确保功能模块在保持低复杂度的同时实现更好的性能和更低的延迟?这三大挑战已经成为语音通信技术面前的“三山”。

看似简单的数字语音通信,实际上,有许多问题需要解决,过程复杂。如果你想建立一个通用的语音通信系统,你自然需要深入学习的帮助。

肖伟说多媒体实验室将深度学习应用于信号处理。一方面,基于深度学习,有效抑制了瞬变等非平稳噪声,实现了语音增强。另一方面,音频超分割技术是结合经典信号处理和深度学习设计的。在与现有协议前向兼容的前提下,提高了信号的分辨率,将窄带语音输入到滕循云中,弥补了窄带语音的缺失部分,提高了回放内容质量 同时,轻量级设计方法可以确保模型很小,并且可以部署在云(支持大并发)或终端(低功耗)中

此外,由于信号传输过程中可能出现的衰减等问题,转码失真很容易在转码过程中发生,影响音频回放的质量。 为了解决这个问题,开发了盲下游后处理技术。 这项技术与包括ITU-T G.711在内的各种标准协议兼容,并能与音频超级分割(audio super division)合作。不需要修改现有的通信协议,可以减少转码失真,并且具有轻量级建模的特点,便于部署。

“随着深入学习,我们已经打开了从上行链路到传输到下行链路的完整链路。这一系列技术不仅性能强大,而且具有光建模和易于部署的特点,可广泛应用于基于数字信号传播的语音呼叫。 肖伟表示,基于深度学习方法,腾讯多媒体实验室将语音信号处理与人工智能技术深度结合,打造端到端智能语音通信解决方案,实现自然的人与人交流。

腾讯多媒体实验室作为腾讯音视频通信和处理的顶级研发团队,在标准制定方面取得了显著成绩,下一代视频编码标准VVC/H.266采纳了近50项建议 此外,虚拟现实(VR)、点云(PCC)、网络传输协议(DASH)、多媒体系统(OMAF、CMAF、NBMP)等相关多媒体标准取得突破,获得多项核心专利

在5G浪潮下,多媒体的技术和形式在不断变化。高效率和低延迟传输带来了更丰富的着陆场景,使得8K、虚拟现实和人工智能更容易访问。 腾讯多媒体实验室也开始向沉浸式媒体和泛媒体方向努力。目前,多媒体实验室已经制作了相应的软件开发工具包,供旅游业和教育行业使用。未来,它将登陆越来越丰富的场景,如金融媒体和新媒体,带给用户5G时代色彩的身临其境的体验。

提高语音通信的质量只是智能语音通信的一个方面,它可以实现更多的目标。 肖伟表示,随着智能语音通信技术的进一步发展,腾讯多媒体实验室将在未来继续进行技术创新,使身临其境的音视频体验更加便捷。

(责任编辑:董云龙)

布达佩斯:古老美丽的多瑙河明珠



广州新闻网 版权所有© www.asapbj.org 技术支持:广州新闻网 | 网站地图