科技资讯:谷歌的Translatotron是一个模仿人类声音的端到端的模型

导读新时代高科技不计其数越来越发达,小伙伴们看过不少科技新闻吧,在我们生活中应该也用到很多这些高科技东西,有哪些小伙伴值的关注的呢,今

新时代高科技不计其数越来越发达,小伙伴们看过不少科技新闻吧,在我们生活中应该也用到很多这些高科技东西,有哪些小伙伴值的关注的呢,今天就跟大家分享一篇有关科技方面知识,希望大家会喜欢。

谷歌人工智能今天分享了关于Translatotron的详细信息,这是一个实验的人工智能系统,能够将一个人的声音直接翻译成另一种语言,这种方法允许对一个人的声音进行综合翻译,以保持原始说话人的声音。

传统上,语音翻译使用自动语音识别将语音转换为文本,应用机器翻译,然后使用文本到语音来产生翻译,但Translatotron是端到端的翻译模型。 研究人员说,与传统的级联模型相比,Translatotron可以更快地完成翻译,并减少并发症。

“据我们所知,Translatotron是第一个端到端的模型,它可以直接将一种语言的语音转换成另一种语言的语音。 它还能够在翻译的演讲中保留源说话人的声音。

测量机器翻译质量的BLEU评分发现实验的Translatotron比传统的级联系统质量低,但Translatotron比基线级联翻译获得了更准确的翻译。

机器翻译的端到端模型的出现始于法国研究人员于2016年在Neur IPS接受的一篇论文。

为了使Translatotron能够进行端到端的翻译,研究人员使用序列对序列模型和谱图作为输入训练数据。 扬声器编码器网络用于捕获扬声器声音的特征,多任务学习用于预测源和目标扬声器使用的单词。

Translatotron在今天发表的一篇题为“使用序列对序列模型的直接语音到语音翻译”的论文中得到了更详细的阐述。

Translatotron的发布是在谷歌推出SpecAugment一个月后出现的,SpecAugment是一种人工智能模型,它使用计算机视觉和多种技术从光谱图像中理解单词。

Translatotron可以应用于类似Google Assistant的口译模式,该模式在今年1月首次面向家庭演讲者。 口译模式能够以27种语言进行听力和语音翻译。 像谷歌和微软这样的公司也在使用他们的语言翻译作为赢得iOS用户的一种方式。

Translatotron是谷歌在机器翻译和语言处理方面的最新进展。

上周,在谷歌的I/O开发者大会上,谷歌分享到,它缩小了其反复出现的神经网络和语言理解模型,用于智能手机设备上的机器学习,使谷歌的速度提高了10倍。 谷歌还推出了镜头翻译,这样你的相机就可以翻译100多种语言。

免责声明:本文由用户上传,如有侵权请联系删除!