语音信号之特性分析图(二)

语音信号的特性主要是指它的声学特性、语音信号的时域波形和频谱特性以及语音信号的统计特性等。这些特性对应着各种语音信号有特性分析图，如时域图、频谱图和声谱图，之前一直分不太清，最近查了一些资料学习了各个图及各中图含义，本次只介绍认识这几种图。

一时域图

时域图中，语音信号直接用它的时间波形表示出来，通过观察世间波形可以看出语音信号一些重要特性，下图是用coolEdit打开的“changge”的时域图，表示这段语音波形时量化精度是16bit，从图中可以得到各个音的起始位置，通过波形振幅和周期性可以观察不同性质的音素的差别。

（唱歌）

如果想比较仔细的看，可以在coolEdit或者GlodWave里打开。

该图是《语音信号处理》书中给出的例子，是“sou ke”的时域图，图中标明了时间及各个音节的起始位置。由于在时域波形中各个音节间不好明显的分界，因此，图中标出的某个音的起点只是粗略的，图中，清辅音[s][k]和元音[ou][e]这两类音的时间波形有很大区别，例如从A点开始的音节[s]，以及从C点开始的[k]都是清辅音，他们的波形类似白噪音，振幅很小，没明显周期，而从B点开始的元音[ou]以及从D点开始的[e]都具有明显的周期性，且振幅较大，它们的周期对应的就是声带振动的频率。

语音信号属于短时平稳信号，一般认为在10~30ms内语音信号特性基本上是不变的，或是缓慢的，于是可截取一小段进行频谱分析。

二频谱图

简单地说，任何信号（当然要满足一定的数学条件，但是说多了又不好懂了，所以先不提），都可以通过傅立叶变换而分解成一个直流分量（也就是一个常数）和若干个（一般是无穷多个）正弦信号的和。每个正弦分量都有自己的频率和幅值，这样，以频率值作横轴，以幅值作纵轴，把上述若干个正弦信号的幅值画在其所对应的频率上，就做出了信号的幅频分布图，也就是所谓频谱图，另外还有相频分布，但其意义不大。

通过matlab的傅里叶变换可以得到一个3维图，是频率、振幅和相位的关系，如上图“唱歌”对应的频谱图如下：

上图频率和相位关系图观察不出什么特性，但频率和振幅可以观察到一些特点，使用《语音信号处理》里的图可以更明显观察一些特性。

第一幅为清辅音[k]的频谱图，第二幅为[ou]的频谱图，其中凸点出现频率就是共振峰的频率（共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道（共振腔）的物理特征），如料[k]没有明显的周期，[ou]可以看出周期稳定。

三语谱图

语音的时域分析和频域分析就是语音分析的两种重要方法，但这两种单独分析的方法有局限性，时域分析对语音信号的频率没有直观了解，而频域分析出的特征中又没有语音信号随时间变化的关系。语音信号是时变信号，所以频谱也是随时间变化的，由于语音信号随时间变化是缓慢的，因而在一段时间内（如10~30ms，即所谓一帧内）可以认为频谱是不变的，这种频谱是短时谱，短时谱只反映语音信号静态频谱特性，所以研究语谱图，即把和时间相关的傅立叶分析的显示图成为语谱图，是一种三维频谱，表示语音频谱随时间变化的图形，纵轴是频率，横轴是时间，任意给定频率成分在给定时刻的强弱用相应点的灰度图或色调的浓淡表示，颜色深，表示该点的语音能量越强。

语谱图上因其不同的黑白程度形成了不同的纹路，称之为“声纹”，它因人而异，即不同讲话者语谱图声纹是不同的，因而可以用声纹鉴定不同的讲话人。语谱图中的花纹有横杠、乱纹和竖直条等，横杠是和时间轴平行的几条深黑色带纹，它们相应于短时谱中的几个凸出点，即共振峰，有没有横杠出现是判断它是否是浊音的重要标志。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。

一 时域图

二 频谱图

三 语谱图

一时域图

二频谱图

三语谱图