语音合成

语音合成是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上，则称为语音合成器，而语音合成器可以用软/硬件所实现。文字转语音（Text-To-Speech，TTS）系统则是将一般语言的文字转换为语音，其他的系统可以描绘语言符号的表示方式，就像音标转换至语音一样^[1]。

而合成后的语音则是利用在数据库内的许多已录好的语音连接起来。系统则因为存储的语音单元大小不同而有所差异，若是要存储phone以及diphone的话，系统必须提供大量的存储空间，但是在语义上或许会不清楚。而用在特定的使用领域上，存储整字或整句的方式可以达到高质量的语音输出。另外，包含了声道模型以及其他的人类声音特征参数的合成器则可以创造出完整的合成声音输出^[2]。

一个语音合成器的质量通常是决定于人声的相似度以及语义是否能被了解。一个清晰的文字转语音程序应该提供人类在视觉受到伤害或是得到失读症时，能够听到并且在个人电脑上完成工作。从80年代早期开始，许多的电脑操作系统已经包含了语音合成器了。

文字处理的概观

历史

早在17世纪就有法国人研发机械式的说话装置。^{[来源请求]}直到19世纪，贝尔实验室对于电子语音合成技术的研究，才开启近代语音合成技术的发展。贝尔实验室在1939年制作出第一个电子语音合成器VODER^[3]，是一种利用共振峰原理所制作的合成器。 1960年，瑞典语言学家G. Fant则提出利用线性预测编码技术（LPC）来作为语音合成分析技术，并推动了日后的发展。后来1980年代Moulines E和Charpentier F提出新的语音合成算法PSOLA，此技术可以合成比较自然的语音。

合成器技术

串接合成

单位选择合成

这通常是使用字词预录的方式，将各字词的发音预先录制好，经处理后存放在数据库中。使用时再将预发音的字句断成字词，再把发音的资料自数据库中取出，交由DSP去处理发音的合成。

Diphone合成

Domain-specific合成

共振峰合成

发音合成

HMM基础合成

正弦波合成

深度学习合成

深度学习语音合成使用深度神经网络（DNN）从文本（文本到语音）或频谱（声码器）产生人工语音。深度神经网络使用大量录制的语音进行训练，如果是文本到语音系统，则使用和语音相对的文本。

基于DNN的语音合成器正在接近人声的自然度。该方法的缺点的例子是当数据不充分时强健性较低，缺乏可控性，自动回归模型的性能低。一些局限性（如缺乏可控性）可以通过未来的研究得到解决。

含有语音合成器的软件

NVDA（开源多国语言屏幕报读软件）
台湾工研院资通所语音团队开发出的mTTS
JAWS（商业付费屏幕报读软件）
内建于苹果电脑相关产品的VoiceOver Utility
Android 1.6版加入支持语音合成的功能。^[7]
微软在1995年开始，开发了一套Microsoft Speech API（英语：Microsoft Speech API），微软的一些操作系统或软件有提供支持语音功能。
VOCALOID 及 VOICEROID，前者偏重歌唱而后者偏重 TTS。

语音合成标记语言

参见

参考资料

^ Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis. From Text to Speech: The MITalk system . Cambridge University Press. 1987. ISBN 978-0-521-30641-6.
^ Rubin, P.; Baer, T.; Mermelstein, P. An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America. 1981, 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780.
^ 柳春、于洪志（2008年）：《现代教育技术》，第26期第64页，北京：清华大学电教中心。
^ 存档副本. [2020-05-28]. （原始内容存档于2022-07-02）.
^ 存档副本. [2020-05-28]. （原始内容存档于2020-04-23）.
^ 存档副本. [2020-05-28]. （原始内容存档于2020-02-19）.
^ Jean-Michel Trivi. An introduction to Text-To-Speech in Android. Android-developers.blogspot.com. 2009-09-23 [2010-02-17]. （原始内容存档于2011-07-08）.

外部链接

[1] Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis. From Text to Speech: The MITalk system . Cambridge University Press. 1987. ISBN 978-0-521-30641-6.

[2] Rubin, P.; Baer, T.; Mermelstein, P. An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America. 1981, 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780.

[3] 柳春、于洪志（2008年）：《现代教育技术》，第26期第64页，北京：清华大学电教中心。

[4] 存档副本. [2020-05-28]. （原始内容存档于2022-07-02）.

[5] 存档副本. [2020-05-28]. （原始内容存档于2020-04-23）.

[6] 存档副本. [2020-05-28]. （原始内容存档于2020-02-19）.

[7] Jean-Michel Trivi. An introduction to Text-To-Speech in Android. Android-developers.blogspot.com. 2009-09-23 [2010-02-17]. （原始内容存档于2011-07-08）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]