简单地说,任何信号(当然要满足一定的数学条件,但是说多了又不好懂了,所以先不提),都可以通过傅立叶变换而分解成一个直流分量(也就是一个常数)和若干个(一般是无穷多个)正弦信号的和。每个正弦分量都有自己的频率和幅值,这样,以频率值作横轴,以幅值作纵轴,把上述若干个正弦信号的幅值画在其所对应的频率上,就做出了信号的幅频分布图,也就是所谓频谱图,另外还有相频分布,但其意义不大。
通过matlab的傅里叶变换可以得到一个3维图,是频率、振幅和相位的关系,如上图“唱歌”对应的频谱图如下:
上图频率和相位关系图观察不出什么特性,但频率和振幅可以观察到一些特点,使用《语音信号处理》里的图可以更明显观察一些特性。
第一幅为清辅音[k]的频谱图,第二幅为[ou]的频谱图,其中凸点出现频率就是共振峰的频率(共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征),如料[k]没有明显的周期,[ou]可以看出周期稳定。
语音的时域分析和频域分析就是语音分析的两种重要方法,但这两种单独分析的方法有局限性,时域分析对语音信号的频率没有直观了解,而频域分析出的特征中又没有语音信号随时间变化的关系。语音信号是时变信号, 所以频谱也是随时间变化的,由于语音信号随时间变化是缓慢的,因而在一段时间内(如10~30ms,即所谓一帧内)可以认为频谱是不变的,这种频谱是短时谱,短时谱只反映语音信号静态频谱特性,所以研究语谱图,即把和时间相关的傅立叶分析的显示图成为语谱图,是一种三维频谱,表示语音频谱随时间变化的图形,纵轴是频率,横轴是时间,任意给定频率成分在给定时刻的强弱用相应点的灰度图或色调的浓淡表示,颜色深,表示该点的语音能量越强。
语谱图上因其不同的黑白程度形成了不同的纹路,称之为“声纹”,它因人而异,即不同讲话者语谱图声纹是不同的,因而可以用声纹鉴定不同的讲话人。语谱图中的花纹有横杠、乱纹和竖直条等,横杠是和时间轴平行的几条深黑色带纹,它们相应于短时谱中的几个凸出点,即共振峰,有没有横杠出现是判断它是否是浊音的重要标志。
联系客服