语音处理

语音处理（英语：Speech processing），又称语音信号处理、人声处理，是研究语音信号及其处理方法的学科。通常，这些信号是以数字形式进行处理的，因此语音处理可以被视为数字信号处理的一个特殊案例，专门应用于语音信号。语音处理涉及语音信号的获取、操控、存储、传输和输出等多个方面。不同的语音处理任务包括语音识别、语音合成、说话人分离、语音增强、说话人识别等。

语音的相关常识

一般声音档格式

采样频率：22050Hz
单声道或双声道
每笔资料用8个bit来表示
电脑中没有经过任何压缩的声音档：*.wav

声音的频率

频率范围

人耳可以辨识频率：20Hz ~ 20000Hz

说话：150~2000Hz

电话系统频域：小于3500Hz

电脑声卡采样频率：44100Hz (最新技术可达192K)(一般用22050Hz、11025Hz 即可)

超声波(ultrasound)与次声波(infrasound)

超声波(ultrasound)：> 20000Hz

次声波(infrasound)：< 20Hz

人对于频率的分辨能力，是由于频率的"比"决定

对人类而言，300Hz和400Hz之间的差别，与3000Hz和4000Hz之间的差别是相同的

声音的波长

波长较长：传播距离较远，但容易散射
波长较短：衰减较快，但传播方向较接近直线

声音的速度

声音在空气中传播速度：每秒340 米(15°C 时)
一般人，耳翼到鼓膜之间的距离： 2.7公分。所以，人类对3000Hz 左右频率的声音最敏感
每增加1°C，声音的速度增加0.6 m/sec
声音在水中的传播速度是1500 m/sec，在铝棒中的传播速度是5000 m/sec

分贝

分贝(dB)： $10log_{\text{10}}(P/C)\,\!$

其中P为音强(正比于振福的平方)，C为0dB时的音强

每增加10dB，音强增加10倍，振幅增加 $10^{0.5}\,\!$ 倍；每增加3dB ，音强增加2倍，振幅增加 $2^{0.5}\,\!$ 倍

音乐信号

电子琴Do 的频率：

低音Do: 131.32 Hz

中音Do: 261.63 Hz

高音Do: 523.26 Hz

更高音Do: 1046.52 Hz

音乐每增加八度音，频率变为2 倍
每一音阶有12个半音。增加一个半音，频率增加 $2^{1/12}\,\!$ 倍(1.0595 倍)
音乐通常会出现“和弦”(chord) 的现象。除了基频 $f_{\text{0}}\,\!$ Hz 之外，也会出现2 $f_{\text{0}}\,\!$ Hz, 3 $f_{\text{0}}\,\!$ Hz, 4 $f_{\text{0}}\,\!$ Hz , …… 的频率

语音处理的工作

语音编码(Speech Coding)
语音合成(Speech Synthesis)
语音增强(Speech Enhancement)
语音辨认(Speech Recognition)

音素→音节→词→句→整段话

说话人办认(Speaker Recognition)
其他：语意、语言、情绪

子音和母音

母音：依唇型而定。母音的能量大，频率偏低，时间较长，出现在子音后或独立出现
子音：在口腔，鼻腔中某些部位将气流暂时堵住后放开。子音的能量小，频率偏高，时间较短，出现在母音前

语意学的角色

以“语意学”或“几率”来补足语音辨识的不足

例如：经过判定，一个声音可能是

ㄅㄧㄖㄢㄆㄧㄖㄢ

ㄅㄧㄌㄢㄆㄧㄌㄢ

这个声音是“必然”的几率比较大。

ㄅㄛㄅㄛㄆㄛㄆㄛ

可能是“伯伯”，也可能是“婆婆”，看上下文

当前主流的语音辨识技术：

梅尔频率倒频谱(Mel-Frequency Cepstrum) + 语意分析 + 机器学习(Machine Learning)

语音档的处理(Matlab)

读取声音档

电脑中，没有经过压缩的声音档都是*.wav 的型态，有经过压缩的声音档是*.mp3的型态
读取： audioread (2015版本以后的Matlab，wavread 将改为audioread)
例： [x, fs] = audioread('C:\WINDOWS\Media\ringin.wav');

可以将ringin.wav 以数字向量x来呈现。fs:采样频率(sampling frequency)

这个例子当中size(x) = 122868 2 (2指的是双声道(Stereo，俗称立体声))，fs = 22050

.wav 档中所读取的资料，值都在 -1 和 +1 之间
画出声音的波型

time = [0:size(x,1)-1]/fs; (x 是用audioread 所读出的向量)

subplot(2,1,1); plot(time, x(:,1)); xlim([time(1),time(end)])

subplot(2,1,2); plot(time, x(:,2)); xlim([time(1),time(end)])

绘出频谱

X = fft(x(:,1));

X=X.';

N=length(X); N1=round(N/2);

dt=1/fs;

X1=[X(N1+1:N),X(1:N1)]*dt; (shifting for spectrum)

f=[[N1:N-1]-N,0:N1-1]/N*fs; (valid f)

plot(f, abs(X1));

声音的播放

sound(x): 将x以8192Hz 的频率播放
sound(x, fs): 将x以fs Hz 的频率播放

注：x必须是1 个column (或2个columns)，且x的值应该介于 -1 和 +1 之间

soundsc(x, fs): 自动把x的值调到 -1 和 +1 之间再播放

制作.wav档：audiowrite

audiowrite(filename, x, fs)

将数据x变成一个*.wav 档，采样频率为fsHz

注：x必须是1 个column (或2个columns)，且x的值应该介于 -1 和 +1

录音的方式

基本指令说明

以下这三个指令要并用才可以录音

recorder = audiorecorder(Fs, nb, nch); (提供录音相关的参数)

Fs: sampling frequency

nb: using nb bits to record each data

nch: number of channels (1 or 2)

recordblocking(recorder, Sec); (录音的指令)

recorder: the parameters obtained by the command audiorecorder

Sec: the time length for recording

audioarray = getaudiodata(recorder);

(将录音的结果，变成audioarray 这个column vector，如果是双声道，则audioarray 是两个column vectors)

范例

Sec = 3; (录音的时间为三秒)

Fs = 8000; (sampling frequency 为8000 Hz)

recorder = audiorecorder(Fs, 16, 1);

recordblocking(recorder, Sec);

audioarray = getaudiodata(recorder); (录音结果为audioarray，是一个column vector (如果是双声道，则是两个column vectors))

sound(audioarray, Fs); (播放录音的结果)

t = [0:length(audioarray)-1]./Fs;

plot (t, audioarray); (将录音的结果用图画出来)

xlabel('sec','FontSize',16);

audiowrite('test.wav', audioarray, Fs) (将录音的结果存成*.wav 档)

语音档的处理(Python)

安装模组

pip install numpy
pip install scipy
pip install matplotlib # plot
pip install pipwin
pipwin install simpleaudio # vocal files
pipwin install pyaudio

读音讯档

要先import 相关模组: import wave

读取音档

wavefile = wave.open('C:/WINDOWS/Media/Alarm01.wav', 'rb')

获得音档采样频率和音讯长度:

fs =wavefile.getframerate() # sampling frequency

num_frame = wavefile.getnframes() # length of the vocal signal

>>> fs

22050

>>> num_frame

122868

读取波形与数据

要先import 相关模组: import numpy as np

str_data = wavefile.readframes(num_frame)
wave_data = np.frombuffer(str_data, dtype=np.int16) # 转成整数型态
wave_data = wave_data / max(abs(wave_data)) # normalization
n_channel = 2
wave_data = np.reshape(wave_data, (num_frame, n_channel)) # 若为双声道音档需要做reshape

画出音讯波形图

要先import 相关模组: import matplotlib.pyplot as plt

time = np.arange(0, num_frame)*1/fs
plt.plot(time, wave_data)
plt.show()

画出频谱

要先import 相关模组: from scipy.fftpack import fft

fft_data = abs(fft(wave_data[:,1]))/fs # only choose the 1st channel # 注意要乘上1/fs
n0=int(np.ceil(num_frame/2))
fft_data1=np.concatenate([fft_data[n0:num_frame],fft_data[0:n0]]) # 将频谱后面一半移到前面
freq=np.concatenate([range(n0-num_frame,0),range(0,n0)])*fs/num_frame # 频率轴跟着调整
plt.plot(freq,fft_data1)
plt.xlim(-1000,1000) # 限制频率的显示范围
plt.show()

播放声音

要先import 相关模组: import simpleaudio as sa

n_bytes =2 # using two bytes to record a data
wave_data = (2**15-1)* wave_data # change the range to -215 ~ 215
wave_data = wave_data.astype(np.int16)
play_obj = sa.play_buffer(wave_data, n_channel, n_bytes, fs)
play_obj.wait_done()

制作音档

f = wave.open('testing.wav', 'wb')
f.setnchannels(2) # 设定声道数
f.setsampwidth(2) # 每个samples 有几个字节
f.setframerate(fs) # 设定采样频率
f.writeframes(wave_data.tobytes())
f.close()

录音

要先import 相关模组: import pyaudio

import pyaudio

pa=pyaudio.PyAudio()

fs = 44100

chunk = 1024

stream = pa.open(format=pyaudio.paInt16, channels=1,rate=fs, input=True, frames_per_buffer=chunk)

vocal=[]

count=0

时频分析结果分析

Matlab

画出时频分析结果

可采行两种方式：

使用mesh 指令画出立体图(但结果不一定清楚，且执行时间较久)
将amplitude 变为gray-level，用显示灰阶图的方法将结果表现出来

假设y 是时频分析计算的结果

image(abs(y)/max(max(abs(y)))*C) % C 是一个常数，可以选C=400

或image(t, f, abs(y)/max(max(abs(y)))*C)

colormap(gray(256)) % 变成gray-level 的图

set(gca,'Ydir','normal') % 若没这一行, y-axis 的方向是倒过来的

set(gca,'Fontsize',12) % 改变横纵轴数值的font sizes

xlabel('Time (Sec)','Fontsize',12) % x-axis

ylabel('Frequency (Hz)','Fontsize',12) % y-axis

title('STFT of x(t)','Fontsize',12) % title

计算程式执行时间的指令

tic (这指令如同按下码表)

toc (show 出码表按下后已经执行了多少时间)

注：通常程式执行第一次时，由于要做程式的编译，所得出的执行时间会比较长。程式执行第二次以后所得出的执行时间，是较为正确的结果

Python

事前安装模组

pip install numpy
pip install matplotlib

画出时频分析结果

假设y为时频分析结果(应为二维的矩阵数列)，将y 以灰阶方式画出来

import numpy as np

import matplotlib.pyplot as plt

C = 400

y = np.abs(y) / np.max(np.abs(y)) * C

plt.imshow(y, cmap='gray', origin='lower') # 加上origin='lower' 避免上下相反

plt.xlabel('Time (Sec)')

plt.ylabel('Frequency (Hz)')

plt.show()

若要加上座标轴数值(在plt.show()之前加上以下程式码)

x_label = ['0', '10', '20', '30'] # 横轴座标值

y_label = ['-5', '0', '5'] # 纵轴座标值

plt.xticks(np.arange(0, x_max, step=int(x_max/(len(x_label)-1)), x_label)

plt.yticks(np.arange(0, y_max, step=int(y_max/(len(y_label)-1)), y_label)

语音信号的来源

人声是由于声带震动，而产生声音。当运动肌肉挤压，使肺脏中的空气通过声带时，空气流动使得声带做周期性的震动，又再一次震动了空气，接着，带着动能的空气离开气管到达口腔或鼻腔，在腔室中震动，最后离开在嘴唇传到人耳变成声音。

若调整口腔中舌头的位置，会产生不同种类的声音，如果舌头没有做太多的动作，空气只有在口腔中共振，接着直接流出嘴唇，会产生母音，若提起舌头，使口鼻腔相通，则会出现鼻音。

语音信号分类

从中文发音的观点来说，声音仍可分为子音与母音，母音和子音可以用两种方式区分：

发声方式：一般而言，母音跟嘴唇形状有关，而且不与鼻腔共振。相对而言，在发出子音时，就会运用到鼻腔配合发声。
频谱分析：从频谱上观察可以发现子音的信号频率较高，持续时间较短，且会在母音之前出现。而母音的频率较低，持续时间较长，在子音后或独立出现，另外，母音的能量也会比子音大。

下面列出中文注音符号中的母音、子音及其拼音。

母音：ㄚㄛㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦ一ㄨㄩ

母音	ㄚ	ㄛ	ㄜ	ㄝ	ㄞ	ㄟ	ㄠ	ㄡ
汉语拼音	a	o	e	e	ai	ei	ao	ou
通用拼音	a	o	e	e	ai	ei	ao	ou
母音	ㄢ	ㄣ	ㄤ	ㄥ	ㄦ	一	ㄨ	ㄩ
汉语拼音	an	en	ang	eng	er	i,y	u,w	yu,ju
通用拼音	an	en	ang	eng	er	i,y	u,w	yu,ju

子音：ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙ

子音	ㄅ	ㄆ	ㄇ	ㄈ	ㄉ	ㄊ	ㄋ
汉语拼音	b	p	m	f	d	t	n
通用拼音	b	p	m	f	d	t	n
子音	ㄌ	ㄍ	ㄎ	ㄏ	ㄐ	ㄑ	ㄒ
汉语拼音	l	g	k	h	j	q	x
通用拼音	l	g	k	h	j	q	x
子音	ㄓ	ㄔ	ㄕ	ㄖ	ㄗ	ㄘ	ㄙ
汉语拼音	zh	ch	sh	r	z	c	s
通用拼音	zh	ch	sh	r	z	c	s

语音的架构

要分析语音信号前，必须先了解其架构，语音的要素从小到大分别是：音素→音节→词汇→句子→整段话。

音素是声音的最小单位，例如“呵”这个字的音素，就是“ㄏ”和“ㄜ”，但是音素和注音符号并不相等，例如“鸥”虽然只有“ㄡ”这个母音，但是由于是双母音，所以会把他拆成两个音素。音节在中文而言，就是只一个字，例如：“天天开心”就有四个音节。词汇是文字组成的有意义片段，各种不同的词汇集结成句子，最后变成整段话，这就是语音的架构。

语音处理方法

用麦克风或其他装置收到的类音声音信号，经由模拟数字变换装置，将资料数据化进行处理，最后再经过数字模拟变换装置输出。因此，我们在处理时是针对数字信号，语音信号是一种离散时间信号。其信号处理流程如下：

收取并采样信号：利用麦克风或各种收音装置，收取模拟语音信号，再用ADC装置(如模拟数字变换卡)把模拟信号变成数字信号，接着根据奈奎斯特理论作采样，若不符合理论则会造成信号失真。
量化及编码：由于电脑中的记忆都是0和1，因此要将所收到的数据用一段适合的0跟1去储存，这个动作就称为量化，所使用的0与1越多，所需的记忆体越多。接着利用编码器将数值以波形呈现，因此虽然是数字信号，但是在电脑中所见到的是模拟。
信号标准化：将语音信号标准化，使其数值都落在同一个范围。
音框选择：由于语音信号是一段很长的信号，因此会针对想要处理的部分取音框。
端点侦测：端点侦测的目的是使信号处理的范围更精确，只要设定一个音量阈值，若信号小于阈值，则将其视为没信号，但是若噪声过高，则会产生误差。
去噪声：由于噪声多集中在高频的部分，因此利用简单的高频滤波器，就可以去掉部分噪声。

基本处理方法

语音信号是属于离散时间系统，因此会用离散时间的傅里叶变换去做处理，除此之外，卷积、窗函数都是一定会使用到的处理方法。

离散时间傅里叶变换：

x[n]={\frac {1}{2\pi }}\int \limits _{-\pi }^{\pi }X(\omega )e^{-j\omega n}\,d\omega .

X(\omega )=\sum _{k=0}^{N-1}x[n]e^{-j\omega n}

卷积：

两信号做convolution等于，两信号先做傅里叶变换，相乘后再做反傅里叶变换，借此可以更快速的处理信号。

{\mathcal {F}}\{h*x\}={\mathcal {F}}\{h\}\cdot {\mathcal {F}}\{x\}

语音处理的应用

语音处理主要有两个目的：

减少信号噪声，做出想要的信号模组。
进行语音辨识，使人可以利用语言与电脑沟通。

参见

语音识别

参考文献

J. Benesty, M. M. Sondhi, Y. Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3-540-49125-5.
J. Benesty, S. Makino, J. Chen (ed). Speech Enhancement. Springer, 2005. ISBN 978-3-540-24039-6.
Jian-Jiun Ding, “Advanced Digital Signal Processing”, NTU, 2021.
Jian-Jiun Ding, “Time Frequency Analysis and Wavelet Transforms ”, NTU, 2021.