窝牛号

重大技术持续突破,科大讯飞SMART-TTS系统让机器人拥有喜怒哀乐

如何让机器的声音媲美人类?这是AIGC领域需求量大、技术门槛高的难题。11月18日,2022科大讯飞全球1024开发者开幕,在平台新品发布会上,科大讯飞AI研究院副院长高建清表示,科大讯飞在语音合成技术领域取得重大突破,多风格多情感合成系统SMART-TTS,可以让语音合成从简单的信息播报,“变身”为具备喜怒哀乐情感的语音助手。

高建清表示,SMART-TTS系统充分利用了文本和语音的‘无监督预训练’,实现了从文本到声学特征、再到语音的端到端建模。

SMART-TTS系统可提供“高兴、抱歉、撒娇、严肃、悲伤、困惑、害怕、鼓励、生气、安慰、宠溺”等11种情感,每种情感有20档强弱度不同的调节能力;也能提供声音的创造能力,如停顿、重音、语速等,可以根据自己喜好调节,真正实现了合成系统媲美具备个性化特点的真人表达能力。

比如当人们在林荫路漫步时,机器人可以用字正腔圆的“播音腔”播报新闻;当人们结束一天工作准备入睡时,机器人可以用轻声细语朗读散文;当人们驱车上班时,机器人可以用最喜欢的歌手声音告诉大家走哪条路不堵车;当人们和家人一起观看纪录片时,机器人可以为片中不同人物配音。人机交互表达自然、情感饱满。

目前,讯飞有声APP和讯飞开放平台都开放了SMART-TTS语音合成系统,开发者可以在讯飞有声直接下载体验,或在开放平台进行调用。

同样隶属于AIGC范畴,在声音和虚拟形象生成技术方面,科大讯飞实现了语义可控的声音、形象生成,语义驱动的情感、动作表达。

比如:当人们输入“一头长发”时,SMART-TTS系统智能生成温柔大方的女性形象,声音端庄又不失甜美;输入“英俊潇洒”,会生成有一些商务范的男生形象,声音略带磁性。

此外,讯飞还实现了语音语义驱动的动作合成,通过对语音节奏、韵律体会和语义理解,虚拟人可以随时、流畅地切换动作,拥有更加自然的肢体语言。“与传统动作库相比,这套语义驱动的系统在动作拟人度及契合度方面,有明显的效果提升。”高建清表示。

同时,2022年科大讯飞科大讯飞在交互系统的认知关键技术也取得突破性进展。

今年以来,依托科大讯飞建设的认知智能国家重点实验室相关团队在认知智能技术突破方面夺得3项国际冠军——在常识推理挑战赛CommonsenseQA 2.0中刷新机器常识推理水平世界纪录,在科学常识推理挑战赛OpenBookQA中以准确率94.2%的绝对优势夺冠,在常识推理挑战赛QASC中以多模型准确率93.48%、单模型准确率92.07%夺冠,后两项比赛更是超越人类平均水平。

随着核心源头技术创新和系统性创新的持续突破,AI拥有更加“智慧”的语义理解和对话生成能力。

“好的人机交互系统,在开放式的场景下要具备深度理解能力,并能了解交互对象从而发起主动的对话。”高建清说,围绕认知智能技术,讯飞实现了于语义图网络的开放场景语义理解,基于事理图谱的对话管理,基于知识学习的可控对话生成。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1