在移动互联网大行其道的时代，人们不用出门不用见面就可以完成很多事情，比如购物、生活缴费、投资理财等，在享受着移动互联网带来的便捷的同时，人们也在担心在不见面的情况下进行认证身份的安全性。

传统的密码验证不仅容易忘记，更容易被黑客攻击盗取，不过好在我们每个人身上都有一些“活密码”，声纹、人脸、虹膜、指纹等，这些生物识别代表了每个人固有的特点。

今天班主任就来带大家了解下人工智能领域的「听风者」——声纹识别。

1.声纹的概念

为了更好地理解声纹，首先了解一下它的载体，也就是语音。一段语音到底包含了哪些信息呢？

一个人听到一段语音之后，基本上就可以从这一段语音里判断出：内容、说话人、语种、性别年龄、情感、信道环境等信息。

这一系列的信息对应了相应的智能语音识别技术，包括内容识别、语种识别、男女老少识别、情感识别以及场景识别。这其中判断该段语音的说话人信息就叫做声纹识别，也就是今天我们所要讨论的内容。

为了更直观地看到声音，我们采用语谱图的形式，语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。

由于是采用二维平面表达三维的信息，所以能量值的大小是通过颜色来表示的，颜色越深表示该点的语音能量就越强。

声音在语谱图中的表示如上图所示，两个人说相同的内容，在语谱图上的纹路是不同的，这就是声纹最直观的表现。这种独特的特征主要有两个因素决定，第一是声带振动的频率，不同的人声带震动频率不同；第二是声腔的尺寸。除此之外，发声器官被操纵的方式也会使每个人的声纹不同。

2.自动声纹识别技术

声纹识别技术又称说话人识别技术，它是利用计算机系统自动完成说话人身份识别的一项智能语音核心技术。

这种技术基于语音中所包含的说话人特有的个性信息，利用计算机以及现在的信息识别技术，自动鉴别当前语音对应的说话人身份。

按照待识别语音的文本内容，可以把声纹识别划分为以下三种：文本无关、文本相关和文本限定。

文本无关是指识别系统对于语音文本内容是没有任何要求，说话人的说话内容比较自由随意。而文本相关是指说话人识别系统，要求用户必须按照事先指定的内容进行发音。对比这两类说话人识别，文本相关的说话人识别的语音内容匹配性是优于文本无关的说话人识别。所以一般来说其系统的性能也会相对较好，但需要用户配合，并且识别文本容易被窃取。

而文本无关的说话人识别，使用较为灵活方便，用户是无感知的，因此它具有更好的推广性和适应性，适合海量后台监控场景。

为综合文本相关和文本无关的两者优点，文本限定的说法就应运而生了。它是指识别的时候，从限定的文本库中随机提取若干词汇组合后提示用户反应。这样不仅避免了文本相关的假冒录音闯入，并且实现相对简单，安全性高，是说话人识别技术的一大热点。

例如采用10个数字的组合来生成限定文本，就是一种最常用的方式。包括科大讯飞公司的数字声纹密码系统也是采用这种形式的。

3.声纹辨认与声纹确认

除了根据识别文本内容来划分以外，声纹识别根据实际的应用范畴，分为声纹辨认和声纹确认。

这两类任务的识别目标略有不同，声纹辨认是指判定待测试语音属于目标说话人模型集合中哪一个人，是【1：N】的选择问题。而声纹确认是确定待识别的一段语音是否来自其所声明的目标说话人，是一个【1:1】的判决问题。

对于声纹识别辨认来说，根据测试识别来自说话人范围的不同，说话人辨认就又可以划分为闭集识别和开集识别。

闭集识别是指代测试语音必定属于目标说话人集合中的某一位，即待识别语音为集内说话人。

开集识别是指代识别语音的发音者可能不属于目标说话人集中的任何一位。除此之外，根据实际的应用场景，声纹识别还包括说话人检测（检测目标说话人是否在某段语音中出现）和说话人分离（以时间为检索，实时检测每段音所对应的说话人）。

然而无论是声纹辨认还是声纹确认，核心均是对声纹相似度的判决。

下面我们来学习下声纹相似度判决的流程。声纹识别是典型的模式识别问题，它主要包含了说话人模型训练和测试语音识别两阶段。

下图是一个基本的说话人识别框架，首先是注册阶段，对使用系统的说话人预留充足的语音，并对不同说话人提取声学特征，然后根据每个说话人的语音特征训练得到对应的说话人模型。最终将全体说话人模型集合在一起组成系统说话人模型库。

注册完成之后是测试阶段，在测试阶段中说话人进行识别认证时，系统对识别语音进行相同的特征提取过程，并将语音特征与说话人模型库进行比对，得到对应说话人模型的相似性打分，最终根据识别打分判别得到识别语音的说话人身份。

4.错误接受率与错误拒绝率

那么我们如何衡量说话人识别系统的性能？首先我们看一看对于1：1场景的声纹确认系统，声纹确认识别系统的评价主要有两个参数，分别是错误接受率（FAR）和错误拒绝率（FRR）。

错误接受率是指将非目标说话人判别为目标说话人所造成的错误。而错误拒绝率是指将目标说话人判别成目标说话人。

两者的定义就是如下图公式所示，在声纹识别系统中可以通过设定不同的阈值，对错误接受率和错误拒绝率进行权衡。

当系统所要求的安全性越高，则设定的阈值应该越高，此时接受条件就越严格，相应的错误接受率就越低，但错误拒绝率可能就越高。

反之，如果系统追求较好的易用性，也就是通过率高，则阈值设定的应该越低，此时接受条件就比较宽松，错误接受率就高一些，错误拒绝率便会低一些。

图中所示的中间阈值的区域，是一个比较平衡的区域。一般采用检测错误权衡曲线，即DET曲线来反映两个错误率之间的关系。

对于一个特定的声纹识别系统来说，以错误接受率为横坐标，错误拒绝率为纵坐标，通过调整阈值得到错误接受率与错误拒绝率之间的关系曲线图，即DET曲线。DET曲线离原点越接近，系统性能越好。

在DET曲线上，第一象限角平分线与其交点处，错误接受率和错误拒绝率的值相等，该错误率称之为等错误率（ERR）。显然等错误率值越小，系统性能越好。同时它也是代表了声纹识别系统的一个大约性能，是衡量系统性能的重要参数。

说完了1:1的生物确认场景之后，我们再来看一下声纹辨认的场景。

通常情况下，在开启的声纹辨认系统中，我们仍然可以采用错误率来评价系统的性能指标。而在这种闭集的辨认系统中，我们通常采用正确率或者识别率，或者是前N正确率作为评价系统性能的指标。

识别率就是指待识别的语音能够从目标说话人集合中，正确找到所对应说话人的概率。通常认定待识别语音与目标说话人集合中相似度最大的就作为辨认说话人，其辨认正确的比率又可称为Top-1的辨认召回率。若目标说话人集合中相似度最大的N个辨认说话人包含正确说话人时为辨认正确，如此统计出来的辨认正确的比率称为Top-N辨认召回率。

5.声纹识别的优势与劣势

最后我们来看一下，声纹识别相对其他生物特征识别有什么优劣势，除了声纹识别以外，常见的生物特征有指纹、掌纹、人脸、虹膜、视网膜等。生物特征代表了每个人固有的特点，它具有普遍性、唯一性、稳定性和不易复制性等。

与其他这些生物特征相比，声纹主要有以下三方面的优势：

1、非接触、易接受：

声纹由于其非接触性是可以用于远程领域的生物识别技术。另外蕴含声纹特征的语音获取方便、自然。在采集过程中涉及到的用户个人隐私信息较少，因此更容易被使用者接受。

2、成本低：

语音采集装置成本低廉，使用简单，一个麦克风即可，在使用通讯设备（如电话、手机）时更无需额外的录音设备。

3、伪造难：

声纹信息必须是活体采集，可使声纹口令动态变化而无需担心密码遗忘、丢失和窃取问题，防止录音假冒。

当然，声纹也有其自身的劣势，声纹特征的稳定性不够，受附着语音长短、内容、采集信道及环境、包括说话人自身身体情况影响，自动识别效果不及指纹等生物特征。

【重要的号外】

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。