語音合成

語音合成是將人類語音用人工的方式所產生。若是將電腦系統用在語音合成上,則稱為語音合成器,而語音合成器可以用軟/硬體所實現。文字轉語音(Text-To-Speech,TTS)系統則是將一般語言的文字轉換為語音,其他的系統可以描繪語言符號的表示方式,就像音標轉換至語音一樣[1]

而合成後的語音則是利用在資料庫內的許多已錄好的語音連接起來。系統則因為儲存的語音單元大小不同而有所差異,若是要儲存phone以及diphone的話,系統必須提供大量的儲存空間,但是在語意上或許會不清楚。而用在特定的使用領域上,儲存整字或整句的方式可以達到高品質的語音輸出。另外,包含了聲道模型以及其他的人類聲音特徵參數的合成器則可以創造出完整的合成聲音輸出[2]

一個語音合成器的品質通常是決定於人聲的相似度以及語意是否能被了解。一個清晰的文字轉語音程式應該提供人類在視覺受到傷害或是得到失讀症時,能夠聽到並且在個人電腦上完成工作。從80年代早期開始,許多的電腦作業系統已經包含了語音合成器了。

文字處理的概觀

歷史

早在17世紀就有法國人研發機械式的說話裝置。[來源請求]直到19世紀,貝爾實驗室對於電子語音合成技術的研究,才開啟近代語音合成技術的發展。貝爾實驗室在1939年製作出第一個電子語音合成器VODER[3],是一種利用共振峰原理所製作的合成器 。 1960年,瑞典語言學家G. Fant則提出利用線性預測編碼技術(LPC)來作為語音合成分析技術,並推動了日後的發展。後來1980年代Moulines E和Charpentier F提出新的語音合成演算法PSOLA,此技術可以合成比較自然的語音。

合成器技術

串接合成

單位選擇合成

這通常是使用字詞預錄的方式,將各字詞的發音預先錄製好,經處理後存放在資料庫中。使用時再將預發音的字句斷成字詞,再把發音的資料自資料庫中取出,交由DSP去處理發音的合成。

Diphone合成

Domain-specific合成

共振峰合成

發音合成

HMM基礎合成

正弦波合成

深度學習合成

深度學習語音合成使用深度神經網路(DNN)從文字(文字到語音)或頻譜(聲碼器)產生人工語音。深度神經網路使用大量錄製的語音進行訓練,如果是文字到語音系統,則使用和語音相對的文字。

基於DNN的語音合成器正在接近人聲的自然度。該方法的缺點的例子是當數據不充分時強健性較低,缺乏可控性,自動回歸模型的效能低。一些局限性(如缺乏可控性)可以通過未來的研究得到解決。

相關比賽

含有語音合成器的軟體

語音合成標記語言

參見

參考資料

  1. ^ Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis. From Text to Speech: The MITalk system . Cambridge University Press. 1987. ISBN 978-0-521-30641-6. 
  2. ^ Rubin, P.; Baer, T.; Mermelstein, P. An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America. 1981, 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780. 
  3. ^ 柳春、於洪志(2008年):《現代教育技術》,第26期第64頁,北京:清華大學電教中心。
  4. ^ 存档副本. [2020-05-28]. (原始內容存檔於2022-07-02). 
  5. ^ 存档副本. [2020-05-28]. (原始內容存檔於2020-04-23). 
  6. ^ 存档副本. [2020-05-28]. (原始內容存檔於2020-02-19). 
  7. ^ Jean-Michel Trivi. An introduction to Text-To-Speech in Android. Android-developers.blogspot.com. 2009-09-23 [2010-02-17]. (原始內容存檔於2011-07-08). 

外部連結