雷鋒網AI科技評論編者按:人工合成人類語音被稱為語音合成。這種基于機器學習的技術適用于文本轉換語音(text-to-speech)、音樂生成、語音生成、語音支持設備、導航系統以及為視障人士提供無障礙服務。
在這篇文章中,我們將研究基于深度學習而進行的研究或模型框架。
在我們正式開始之前,我們需要簡要概述一些特定的、傳統的語音合成策略:拼接和參數化。
拼接方法,需要使用大型數據庫中的語音來拼接生成新的可聽語音。在需要不同語音風格的情況下,必須使用新的音頻數據庫,這極大的限制了這種方法的可擴展性。
參數化方法則是用一條記錄下的人的聲音以及一個含參函數,通過調節函數參數來改變語音。
這兩種方法代表了傳統的語音合成方法。現在讓我們來看看使用深度學習的新方法。為了探索當前流行的語音合成方法,我們研究了這些:
●WaveNet: 原始音頻生成模型
●Tacotron:端到端的語音合成
●Deep Voice 1:實時神經文本語音轉換
●Deep Voice 2:多說話人神經文本語音轉換
●Deep Voice 3:帶有卷積序列學習的尺度文本語音轉換
●Parallel WaveNet:快速高保真語音合成
●利用小樣本的神經網絡語音克隆
●VoiceLoop:通過語音循環進行語音擬合與合成
●利用梅爾圖譜預測上的條件WaveNet進行自然TTS合成
WaveNet:原始音頻生成模型
這篇文章的作者來自谷歌。他們提出了一種能產生原始音頻波的神經網絡。他們的模型是完全概率的和自回歸的,在英語和漢語的text-to-speech上都取得了最先進的結果。
文章鏈接: https://arxiv.org/abs/1609.03499
圖1
WaveNET是基于PixelCNN的音頻生成模型,它能夠產生類似于人類發出的聲音。
圖2
在這個生成模型中,每個音頻樣本都以先前的音頻樣本為條件。條件概率用一組卷積層來建模。這個網絡沒有池化層,模型的輸出與輸入具有相同的時間維數。
圖3
在模型架構中使用臨時卷積可以確保模型不會違反數據建模的順序。在該模型中,每個預測語音樣本被反饋到網絡上用來幫助預測下一個語音樣本。由于臨時卷積沒有周期性連接,因此它們比RNN訓練地更快。
使用臨時卷積的主要挑戰之一是,它們需要很多層來增加感受野。為了解決這一難題,作者使用了加寬的卷積。加寬的卷積使只有幾層的網絡能有更大的感受野。模型使用了Softmax分布對各個音頻樣本的條件分布建模。
圖4
這個模型在多人情景的語音生成、文本到語音的轉換、音樂音頻建模等方面進行了評估。測試中使用的是平均意見評分(MOS),MOS可以評測聲音的質量,本質上就是一個人對聲音質量的評價一樣。它有1到5之間的數字,其中5表示質量最好。
圖5
下圖顯示了1-5級waveNet的語音質量:
圖6
Tacotron:端到端的語音合成
這篇文章的作者來自谷歌。 Tacotron是一種端到端的生成性文本轉化語音的模型,可直接從文本和音頻對合形成語音。Tacotron在美式英語上獲得3.82分的平均得分。Tacotron是在幀級生成語音,因此比樣本級自回歸的方法更快。
文章鏈接:https://arxiv.org/abs/1703.10135
這個模型是在音頻和文本對上進行的訓練,因此它可以非常方便地應用到新的數據集上。Tacotron是一個seq2seq模型,該模型包括一個編碼器、一個基于注意力的解碼器以及一個后端處理網絡(post-processing net)。如下框架圖所示,該模型輸入字符,輸出原始譜圖。然后把這個譜圖轉換成波形圖。
圖7
下圖顯示了CBHG模塊的結構。它由1-D卷積濾波器,highway networks和雙向GRU(Gated Recurrent Unit)組成。
圖8
將字符序列輸入編碼器,編碼器將提取出文本的順序表示。每個字符被表示為一個獨熱向量嵌入到連續向量中。然后加入非線性變換,再然后加上一個dropout,以減少過度擬合。這在本質上減少了單詞的發音錯誤。
模型所用的解碼器是基于內容注意力的tanh解碼器。然后使用Griffin-Lim算法生成波形圖。該模型使用的超參數如下所示。
圖9
下圖顯示了與其他替代方案相比,Tacotron的性能優勢。
圖10
Deep Voice 1:實時神經文本到語音合成
這篇文章的作者來自百度硅谷人工智能實驗室。Deep Voice是一個利用深度神經網絡開發的文本到語音的系統.
文章鏈接:https://arxiv.org/abs/1702.07825
它有五個重要的組成模塊:
●定位音素邊界的分割模型(基于使用連接時間分類(CTC)損失函數的深度神經網絡);
●字母到音素的轉換模型(字素到音素是在一定規則下產生單詞發音的過程);
●音素持續時間預測模型;
●基頻預測模型;
●音頻合成模型(一個具有更少參數的WaveNet變體)。
圖11
字母到音素模型將英文字符轉換為音素。分割模型識別每個音素在音頻文件中開始和結束的位置。音素持續時間模型預測音素序列中每個音素的持續時間。
基頻模型預測音素是否發聲。音頻合成模型則綜合了字母到音素轉換模型、音素持續時間模型、基頻預測模型等的輸出進行音頻合成。
以下是它與其他模型的對比情況:
圖12
Deep Voice 2:多說話人神經文本語音轉換
這篇文章是百度硅谷人工智能實驗室在Deep Voice上的二次迭代。他們介紹了一種利用低維可訓練說話人嵌入來增強神經文本到語音的方法,這可以從單個模型產生不同的聲音。
該模型與DeepVoice 1有類似的流水線,但它在音頻質量上卻有顯著的提高。該模型能夠從每個說話人不到半個小時的語音數據中學習數百種獨特的聲音。
文章鏈接:https://arxiv.org/abs/1705.08947
作者還介紹了一種基于WaveNet的聲譜到音頻的神經聲碼器,并將其與Taco tron結合,代替Griffin-Lim音頻生成。這篇文章的重點是處理多個說話人而每個說話人的數據有非常少的情況。模型的架構類似于Deep Voice 1,訓練過程如下圖所示。
圖13
Deep Voice 2和Deep Voice 1之間的主要區別在于音素持續時間模型和頻率模型的分離。 Deep Voice 1有一個用于聯合預測音素持續時間和頻率曲線的單一模型; 而在Deep Voice 2中,則先預測音素持續時間,然后將它們用作頻率模型的輸入。
Deep Voice 2中的分割模型使用一種卷積遞歸結構(采用連接時間分類(CTC)損失函數)對音素對進行分類。Deep Voice 2的主要修改是在卷積層中添加了大量的歸一化和殘余連接。它的發聲模型是基于WaveNet架構的。
從多個說話人合成語音,主要通過用每個說話人的單個低維級說話人嵌入向量增強每個模型來完成的。說話人之間的權重分配,則是通過將與說話人相關的參數存儲在非常低維的矢量中來實現。
遞歸神經網絡(RNN)的初始狀態由說話人聲音的嵌入產生。采用均勻分布的方法隨機初始化說話人聲音的嵌入,并用反向傳播對其進行聯合訓練。說話人聲音的嵌入包含在模型的多個部分中,以確保能考慮到每個說話人的聲音特點。
圖14
接下來讓我們看看與其他模型相比它的性能如何:
圖15
Deep Voice 3:利用卷積序列學習將文本轉換為語音
文章鏈接:https://arxiv.org/abs/1710.07654
這篇文章的作者提出了一種全卷積字符到譜圖的框架,可以實現完全并行計算。該框架是基于注意力的序列到序列模型。這個模型在LibriSpeech ASR數據集上進行訓練。
這個模型的結構能夠將字符、音素、重音等文本特征轉換成不同的聲碼器參數,其中包括Mel波段光譜圖、線性比例對數幅度譜圖、基頻譜圖、譜包絡圖和非周期性參數。然后將這些聲碼器參數作為音頻波形合成模型的輸入。
圖16
模型的結構由以下幾個部分組成:
●編碼器:一種全卷積編碼器,可將文本特征轉換為內部學習表示。
●解碼器:一種全卷積因果解碼器,以自回歸的方式解碼學習表示。
●轉換器:一種全卷積后處理網絡,可預測最終的聲碼器參數。
對于文本預處理,作者的處理方式包括:大寫文本輸入字符,刪除標點符號,以句號或問號結束每句話,并用表示停頓長度的特殊字符替換空格。
下圖是該模型與其他替代模型的性能比較。
圖17
關鍵詞:
網站首頁 |網站簡介 | 關于我們 | 廣告業務 | 投稿信箱
Copyright © 2000-2020 www.yjkq2010.com All Rights Reserved.
中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
聯系郵箱:920 891 263@qq.com
欧美色综合网_狠狠色狠色综合曰曰_麻豆精品一区二区av白丝在线_久久精品综合一区 主站蜘蛛池模板: 久久一区二区三区四区| 一本色道久久综合亚洲精品不卡 | 欧美日韩视频在线观看一区二区三区 | 亚洲精品一区二区在线观看| 伊人成年综合电影网| 日韩午夜在线| 欧美一级黄色录像| 免费国产自线拍一欧美视频| 国产精品美女久久久久久免费| 91久久久久久| 亚洲国产高清一区二区三区| 亚洲欧美三级伦理| 欧美日韩免费一区| 亚洲欧洲在线播放| 欧美xx视频| 亚洲国产精品www| 久久九九热免费视频| 国产日韩视频| 欧美在线视频免费| 国产精品日韩欧美一区| 亚洲欧美偷拍卡通变态| 久久免费视频网站| 狠狠色香婷婷久久亚洲精品| 欧美在线三级| 国产午夜亚洲精品不卡| 午夜久久黄色| 国产综合色在线| 欧美一区二区在线播放| 欧美精品久久久久久久久老牛影院| 欧美成年人视频网站| 国产精品嫩草99av在线| 亚洲与欧洲av电影| 国产精品美女久久久久久久| 性欧美video另类hd性玩具| 国产一区二区三区日韩欧美| 久久久五月天| 欧美日韩国产二区| 日韩亚洲欧美在线观看| 欧美激情第4页| 久久精品国产亚洲a| 夜夜嗨av一区二区三区免费区|