据英国《每日邮报》12月28日报道,谷歌将推出新款文语转换(TTS)系统Tacotron 2,可让AI语音助手的声音更加自然。
不同于其他以复杂语言学和声学特征为输入的TTS系统,Tacotron 2通过学习人类对话和文本记录并进行训练,以生成更贴近人声的语音。研究团队表示,听众评价Tacotron 2的语音水平与专业录音相当。
基于之前的研究成果Tacotron和WaveNet,Tacotron 2使用序列-序列模型,该模型将字母映射到编码音频的特征上。该过程结合了发音、音量、速度和语调。然后,这些特征被转换成24 kHz的波形。
一项系统演示展示了Tacotron 2如何节奏流利地朗读不同的文本(包括绕口令)。但是,一些较难的词语仍然绊住了它。
研究团队称,虽然该系统在听众试验中取得了不错的反响,但还不够完美。“我们的样本听起来不错,但仍有一些棘手的问题有待解决。例如,我们的系统在复杂词语发音上存在困难,在极端情况下甚至会随机产生奇怪的噪音。而且,它还无法生成实时音频。我们还不能控制它所产生的语音,无法引导它具有高兴或悲伤的情绪。”(实习编译:陈倩云 审稿:李宗泽)