Future Tech

[转贴] 她们的冬奥会解说,暖了千万人的心

Tan KW
Publish date: Sat, 12 Feb 2022, 06:44 AM
Tan KW
0 464,583
Future Tech
她们的冬奥会解说,暖了千万人的心

智东西(公众号:zhidxcom)
作者 |  程茜
编辑 |  漠影

“武大靖最后一次冲刺!最后一个弯道,武大靖率先冲出弯道,冲过了终点!”2月5日,冬奥会第1个比赛日,中国短道速滑混合团体接力项目夺得首金!

细心的观众可能注意到,央视频画面中右下角有一个手语主播,更神奇的是,这个手语主播并不是真人,而是手语数字人——央视频AI手语翻译官聆语,为熟悉手语的听障人士带来了精彩“解说”。

她们的冬奥会解说,暖了千万人的心▲央视频AI手语翻译官聆语解说短道速滑混合团体接力项目武大靖冲刺时刻

我们可以看到,聆语的手势里包含了我们常见的数字“9”和“3”的手部动作,但与我们理解的意思不同,“3”表示的是“W”,“9”表示“J”,就是“武大靖”首字母的拼音,令人称奇。

冬奥会开幕以来,冬奥会四金得主王濛再度冲上热搜,这次的出圈方式是其“唠嗑”式的解说。随着“我的眼睛就是尺”等金句频出,各路网友纷纷表示已被圈粉。足以见得,赛事解说在体育项目中的重要性。然而,大多数解说员都是通过声音播报,导致一些听力障碍人群无法感受解说的魅力,而手语主播的出现就有效弥补了这一难题。

腾讯AI手语翻译官聆语上线央视频、腾讯3D手语数字人小聪上线腾讯体育,为听障人士带来手语解说,感受冬奥赛场上的精彩瞬间。小聪、聆语,由腾讯PCG AI交互部联合CSIG智能平台产品部共同打造,与以往的3D AI合成主播不同,手语数字人通过手势动作和表情,为听障人士提供“无声的沟通”。从技术上看,腾讯手语数字人基于腾讯多模态端到端生成模型,进行联合建模及预测生成高准确率的动作、表情、唇动等序列,实现自然专业、易懂度高的手语效果。

近日,为了揭开手语数字人背后的黑科技,智东西采访了腾讯PCG AI交互部手语数字人项目组负责人孟凡博,就手语翻译的难点、腾讯手语数字人的技术逻辑,技术团队在开发中遇到的难题等做了详细介绍。

一、手语主播的三大技术优势,形象逼真、动作自然准确

让我们仔细观察一下下面动图里的小聪,是不是感觉近似真人?并且在解说过程中,小聪的头和肩膀还会随着手势动作轻微摆动,手语动作流畅自然,再加上表情、口动等,细节也很到位。这些效果的实现,都离不开AI、大数据等技术驱动,这也正是腾讯手语数字人的技术难点所在。

她们的冬奥会解说,暖了千万人的心▲腾讯手语数字人小聪播报“中国夺得首金”

大家都能看到,手语数字人和其他数字人最大的区别在于不发声,仅仅依靠动作、表情等要素。不论是聆语还是小聪,其形象和手语动作都十分传神,那么在这背后有哪些黑科技?

1、超写实的逼真数字人效果

对于健听人而言,我们只需要声音、音调就能表达丰富的意思,而手语以表形表意为主,需要较大幅度的肢体动作、更加逼真的人物形象等,能和观众产生交流,更具真实感与亲切感,才能进一步使得手语翻译的完成度更高,在有效模拟真人手语播报的基础上,进一步提升用户体验。

为此,腾讯手语数字人使用了行业领先的3D重光照扫描还原、面部肌肉驱动、表情肢体手势捕捉技术,打造了高度还原真人发肤、形象逼真、动作自然生动的数字人模型。

2、高可懂度的手语表达能力

大部分人可能不了解,学习手语其实和我们学习一门外语一样困难。手语是属于听障人士的独立语言,与汉语、英语等并列,有自己的语法结构、语序编排等规则,拥有独特的语言体系。和汉语类似,手语也分方言和普通话,为了让手语普及度进一步提高,我国于2019年还专门出版了《国家通用手语词典》,进一步对手语体系进行了规范。

腾讯手语数字人的手语翻译系统,正是基于《国家通用手语词典》,形成了成熟的汉语到手语的语序转化和翻译过程。基于输入的健听人语言能够低延迟生成高准确率的手语语言表征,通过多模态生成技术,实时预测生成对应的超写实3D数字人驱动参数,进而快速生成数字人手语播报视频。

她们的冬奥会解说,暖了千万人的心▲国家通用手语词典应用程序手语讲解示例(图片自国家通用手语词典APP)

在听障人士可懂度测评中,腾讯手语数字人的播报内容整体可懂度已经达到90%以上。

3、高接受度的手语展现效果

不了解手语的人,就像我一样,可能以为手语仅仅需要手部动作,其实不然,表情、口动、体态等也都是手语表达的关键。下面这个例子就十分形象了,“明白吗?”这个问句需要身体朝向、表情、眼神、口型的联动,才能有效传递出疑问的语气。

这一简单的问句就需要这么多要素,如果换成其他信息更加丰富的句子,手语数字人将如何精准传递信息呢?

她们的冬奥会解说,暖了千万人的心▲国家通用手语词典应用程序手语讲解疑问代词示例(图片自国家通用手语词典APP)

作为一种视觉语言,手语往往需要手控信息和非手控信息联动表达。除了上面提到的疑问语气,日常表达中还有感叹、肯定等诸多情绪,为了使手语表达更加地道,精准的手部动作以及准确的非手控信息都需要具备。

为了实现更加准确、自然的手语表达效果,腾讯PCG AI交互部建立了汉语-手语翻译系统,可以通过机器翻译生成手语表征信息,基于多模态端到端生成模型进行联合建模及预测,生成高准确率的动作、表情、唇动等序列。

二、打造手语语言体系,驱动手语数字人准确表达

在大部分人看来,手语动作比较简单,不同的词汇有相对应的手势,其实真正可懂也很难。打个比方来说,我们学英语,需要打乱汉语语序,按照英语的方式来思考,才能熟练掌握这门语言。手语也类似,其语序结构、句子表达、特殊表情等都和汉语不同,有时一个句子中的词汇并不需要全都通过手语翻译,例如量词、副词等,但有时合理地删减也是一大难点。

在调研过程中,研究人员发现,现在《新闻联播》《北京新闻》等很多栏目中都增设了手语播报,不过部分听障人士称,他们只能理解手语新闻中不到60%的内容。

日常的新闻播报尚且如此,冬奥会这一特殊场景下,项目名称、技术动作等手语词汇翻译难度可想而知。为了让手语数字人适应冬奥会这一特殊场景,研究人员也费了很大功夫。

孟凡博称,首先,他们需要训练手语系统应对比赛、采访现场嘈杂的环境音,前期,技术团队选取了大量赛事报道对手语数字人进行训练;其次,手语作为一门独立语言,其文本资源很少,研究团队通过多方搜集只能找到近160万有效文本。相比于中英对照的2亿文本,这个体量可以说很小了。

更为重要的一点是,体育赛事有很多专业术语,手语数字人在确保信息全面、完整的基础上,也要保证数据的准确性,因此,腾讯AI交互技术团队和专业手语老师达成合作,迁移到手语数字人中的手语都经手语顾问反复确认。

因此,面对专业的冬奥会,在文本不足的条件下,如何打造“真正可懂”的手语数字人正是腾讯AI交互技术团队需要跨越的技术壁垒。

1、手语表达语序独立,建立映射词典

看到复杂的手语动作,我们可能一头雾水,但通过智东西和专业人士交流发现,手语表达语序与汉语大不相同。例如,在手语表达中,会先打出表达行为目的的词语,后打出表示行为的对象的词语,汉语“我想回家”

 

https://zhidx.com/p/316363.html

Discussions
Be the first to like this. Showing 0 of 0 comments

Post a Comment