黑箱原理:从一组观测数据推算问题世界的数学模型,一般没有物理解释,但是在输入输出关系上反映了问题世界的实际。
统计机器学习本质上是黑箱原理的延续。
这里的统计机器学习是指20世纪90年代Vapnik的The nature of statistical learning theory为标志的机器学习。与神经网络时代相比,其特点是:
- 强调泛化能力,并将学习算法设计建立在泛化指标的基础上 -----〉泛化 -----〉有限样本集和的统计理论
- 强调线性划分,在学习算法设计上,指出“回归感知机”的重要性 -----〉表示 ----〉概率近似正确的泛化描述(核函数)
泛化问题
1)统计机器学习(Duda理论)与Vapnik的理论之间的区别
- Duda理论
- 提出了以经典统计理论为工具刻画模式识别和机器学习的各项任务
- 泛化问题的理论用“风险”来刻画数学模型与问题世界模型之间的区别:理想情况下的风险为Rexp(期望风险),由于其不能直接计算只能估计,因此估计的风险为Remp(经验风险)。泛化问题就是计算使得|Rexp-Remp|最小的模型。经典方法认为,当样本个数趋于无穷大时,如果所建立的数学模型是成功的(以概率1成立),|Rexp-Remp|应该趋于零。由于样本集合趋于无穷大,样本集合是唯一的,因此经典泛化理论不包括样本集合这个因素。
Vapnik理论 - 将学习的样本集合理解为从问题世界随机选取的子集,由于不同样本集合对应不同的模型,而不同模型对问题世界为真的程度不同(泛化或误差),如果计算对问题世界“最真”的模型就成了主要任务。因此,样本集合成为泛化指标的随机变量,由此建立了结构风险理论。
- 样本集合是风险公式中的一个变量(关于风险的随机变量)
- 根据PAC,模型以概率1-δ成立,即,模型泛化能力以概率近似正确描述。
- 因此,统计理论不仅考虑期望风险和经验风险之间的关系,还要考虑划分样本集合函数族的划分能力,成为置信范围Φ。
- 这样,构成风险不等式:Rexp(α)≤Remp(α)+Φ(k/d),其中d是函数族的VC维。
- 期望Remp(α)+Φ(k/d)最小,即Remp(α)和Φ(k/d)同时最小,但在理论上过于复杂。在目前的泛化理论研究中,设Remp(α)已经最小的条件下,估计Φ(k/d)最小,这样,泛化理论可以建立在基于参数α的函数f(α)的VC维上。
2)1998年,具有几何直观的最大边缘不等式被发现,这个不等式无论在直观几何解释上还是在指导算法设计上均具有重要意义。最大边缘首先必须有边缘,这意味着,这个理论只适合线性可分问题。但根据泛函分析,可以通过映射,将线性不可分问题变为在另一个空间中线性可分问题。
表示问题
认识问题世界的主要标志是,能用简洁的方式表达问题世界的规律:(1)能概括问题世界(2)表述长度在可接受范围内
如果一个问题世界可以在某个空间线性表示,且空间的维数对问题所包含的数量呈多项式关系,这类问题就比较简单,否则问题将十分复杂。例如,n-XOR问题在样本空间中是不能线性划分的,根据泛函分析,考虑一个映射,将其映射到一个多项式基的空间,称为特征空间,可以成为线性空间。
目前采用的核函数,从特征空间的基来看,主要分为两类:
- 将核函数用泰勒级数展开,由此特征空间的基是多项式类型
- 核函数用傅里叶级数展开,由此特征空间的基是三角函数
目前常用的是第一种,这样,对于机器学习,一般存在两种策略:
- 实现确定特征空间的维数(泰勒级数的前n项),然后用优化方法调整系数,直到样本集合可以线性划分并边缘最大
- 给定系数,调整特征空间维数,直到对样本集合可以线性划分并边缘最大化
与多层感知机派生的BP算法比较,SVM的优点
- SVM有有限样本统计理论支持,算法不仅考虑划分为基础,而且考虑了泛化能力下的划分
- 算法设计有几何直观的指导
- 核函数独立于算法。使用通用的核函数(如高斯类核函数)可以解决一些问题,但是根据领域知识来设计核函数,还没有被研究者充分重视。