一种噪声环境下的实时语音端点检测算法

徐大为

吴

边

赵建伟

刘重庆

（上海交通大学图像处理与模式识别研究所，上海!'''#'）

678)+9：:;<=)>?+@A+1)$B,8

摘

要

语音识别中的端点检测要求对噪声有很强的鲁棒性。该文提出一种方法，综合采用了语音信号中的2个相互之

倒谱距离、能量谱方差和能量7熵特征，有效地改进传统的基于单一语音特征方法的缺陷，间独立性强的特征7短时能量、

在动态变化的噪声环境中，大大提高了端点检测对噪声的鲁棒性；为了克服分类回归树（3&(4）决策法的过度复杂性，引以保证算法的实时性能，并且能够提高端点检测的可靠性。通过各种实际噪声入一种新的5状态自动机进行快速决策，

环境的测试，实验表明这一算法可以显著提高在低信噪比、噪声动态变化的各种环境下的端点检测性能。关键词

端点检测

倒谱距离

能量7熵特征

5状态自动机

中图分类号4D#'%$E；4D#F%$2!

（!''#）文章编号%''!7C##%7'%7'%%57'#文献标识码&

!'#$%&’!()#*+’,-.#*'/0(1’+-/2345#+3’

6/’/7’+#3+38#+&923:+*#3-/3’&

;%60+03?,0#@+03

（G1AH+H;H?,IG8)J?DK,B?AA+1J)1=D)HH?K1(?B,J1+H+,1，’0)1J0)+L+),H,1JM1+*?KA+HN，’0)1J0)+!'''#'）

!$&’*07’：G1AO??B0K?B,J1+H+,1，H0??1=O,+1H=?H?BH+,18;AHP?K,P;AHH,1,+A?$&8?H0,=+AOK?A?1H?=+1H0+AO)O?K，I,;KAO??B0I?)H;K?A，?$J$A0,KH7H+8??1?KJN，B?OAHK)9=+AH)1B?，?1?KJN*)K+)1B?)1=?1?KJN7?1HK,ON，)K?H)Q?1+1H,B,1A+=?K)H+,1$R?B);A?,IH0?0+J0+1=?O?1=?1B?,IH0,A?I,;KI?)H;K?A，H0+A8?H0,=B)1)=)OHH,*)K+,;A?1*+K,18?1HA$40?=?ABK+P?=)9J,K+H081,H,19N;A?AI,;KI?)H;K?AP;H)9A,+1HK,=;B?A)57AH)H?A);H,8)H+,1=?B+A+,19,J+BH,+1BK?)A?H0?K,P;AH1?AA+1P,H09,>’S()1=*)K+,;A1,+AN?1*+K,18?1HA$40?O?KI,K8)1B?,IH0?)9J,K+H08+A?*)9;)H?=PN?:O?K+8?1HA+1*)K+,;A1,+AN?1*+K,18?1HA，)1=H0?O?KI,K8)1B?,IH0+A?1=O,+1H=?H?BH+,1)9J,K+H08+AJK?)H9N+8OK,*?=$&HH0?A)8?H+8?，H0?OK,O,A?=)9J,K+H080)A)9,>B,8O9?:+HN)1=+A*?KNA;+H)P9?I,KK?)9H+8?8,P+9?B,1=+H+,1A$D/9<>

%简介

端点作为语音分割的重要特征，在很大程度上影响语音识

征，目的在于利用不同特征对各种噪声的适应特性，提高在各种环境下对噪声的鲁棒性。算法中设计了一种5状态的自动机推理决策，使算法复杂度大大下降，适合实时计算。为了改进对短时能量、能量谱各种噪声的鲁棒性，采用了语音的2个特征：方差、倒谱距离和熵。对语音特征的选择原则是：被选择的特征应当可以从不同的方面反映噪声和语音信号之间的差别。尽管某个特征可以在某些特定环境下可以作为端点检测最有效的手段，但是这个特征并不总是能够保证在各种环境下有效。

分析所选择的这2个语音特征，可以得到以下简单的结论。短时能量是最有效的端点检测手段，被广泛采用；能量谱的方差反映了噪声信号和语音信号之间的能量谱的差别；倒谱距离是能量谱的傅立叶变换系数，是一种较为理想的分类特征；熵是从信息论中引用的一个概念，表示信息的有序程度，对于噪声而言，其有序程度要远低于语音信号的有序程度。这些特征相互之间的冗余度极大地降低，在不同的噪声环境中体现出各自的优势；端点检测通过这2种特征适当地综合加权得到。最后，采用一种5状态的自动机进行推理决策最终的端点检测结果。

别的性能，因此在有背景噪声的环境下，自动语音识别系统（&’(）需要对端点进行精确的检测。如何在噪声环境下设计一种鲁棒的端点检测算法还是一个非常棘手的问题。’)*+,-+.!/认为，一种理想的端点检测算法应当具有以下几个特征：可靠性、鲁棒性、精确性、自适应性、简单性、实时性和对噪声特征无需先验知识。在所有的这些特征中，鲁棒性是最难达到的要求。

传统的端点检测算法通常只依赖于一个特征，例如信号能量，过零率，持续时间以及线性预测能量误差。尽管这些方法通过获取语音信号的一维特征可以降低算法的复杂度，但是却对各种噪声失去了抵制力。通常，基于能量检测方法认为加性噪声是最常见的噪声分布，而实际情况却并非如此，所以只利用一个语音特征很难处理各种各样的噪声情况。’0+1.2/提出利用多个特征进行端点检测，并采用“分类和回归树”（3&(4）来综合各个特征进行决策。但是3&(4给算法带来了成指数形式增长的计算复杂度，根本无法实时实现，而且这种方法采用特征的都是由短时能量推导出的特征，所以特征之间存在较大的冗余性，在某些噪声条件下也不能取得好的效果。

该文提出的方法综合运用语音信号的2个独立性强的特

基金项目：国家CE#计划资助项目（编号：%CE#7#'E7TU%#7'57E%）

!四特征端点检测算法

计算机工程与应用

!''#$'%%%5

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。