科技资讯：谷歌的Translatotron是一个模仿人类声音的端到端的模型

2021-06-18 07:16:00

导读新时代高科技不计其数越来越发达，小伙伴们看过不少科技新闻吧，在我们生活中应该也用到很多这些高科技东西，有哪些小伙伴值的关注的呢，今

新时代高科技不计其数越来越发达，小伙伴们看过不少科技新闻吧，在我们生活中应该也用到很多这些高科技东西，有哪些小伙伴值的关注的呢，今天就跟大家分享一篇有关科技方面知识，希望大家会喜欢。

谷歌人工智能今天分享了关于Translatotron的详细信息，这是一个实验的人工智能系统，能够将一个人的声音直接翻译成另一种语言，这种方法允许对一个人的声音进行综合翻译，以保持原始说话人的声音。

传统上，语音翻译使用自动语音识别将语音转换为文本，应用机器翻译，然后使用文本到语音来产生翻译，但Translatotron是端到端的翻译模型。研究人员说，与传统的级联模型相比，Translatotron可以更快地完成翻译，并减少并发症。

“据我们所知，Translatotron是第一个端到端的模型，它可以直接将一种语言的语音转换成另一种语言的语音。它还能够在翻译的演讲中保留源说话人的声音。

测量机器翻译质量的BLEU评分发现实验的Translatotron比传统的级联系统质量低，但Translatotron比基线级联翻译获得了更准确的翻译。

机器翻译的端到端模型的出现始于法国研究人员于2016年在Neur IPS接受的一篇论文。

为了使Translatotron能够进行端到端的翻译，研究人员使用序列对序列模型和谱图作为输入训练数据。扬声器编码器网络用于捕获扬声器声音的特征，多任务学习用于预测源和目标扬声器使用的单词。

Translatotron在今天发表的一篇题为“使用序列对序列模型的直接语音到语音翻译”的论文中得到了更详细的阐述。

Translatotron的发布是在谷歌推出SpecAugment一个月后出现的，SpecAugment是一种人工智能模型，它使用计算机视觉和多种技术从光谱图像中理解单词。

Translatotron可以应用于类似Google Assistant的口译模式，该模式在今年1月首次面向家庭演讲者。口译模式能够以27种语言进行听力和语音翻译。像谷歌和微软这样的公司也在使用他们的语言翻译作为赢得iOS用户的一种方式。

Translatotron是谷歌在机器翻译和语言处理方面的最新进展。

上周，在谷歌的I/O开发者大会上，谷歌分享到，它缩小了其反复出现的神经网络和语言理解模型，用于智能手机设备上的机器学习，使谷歌的速度提高了10倍。谷歌还推出了镜头翻译，这样你的相机就可以翻译100多种语言。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：谷歌的Translatotron是一个模仿人类声音的端到端的模型

上一篇:科技资讯：OnePlus8图像泄漏从各个方面显示了即将推出的设备

下一篇:科技资讯：在亚马逊上以最低价格购买小米MiNote10智能手机

返回顶部"