打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
机器学习总结(基础):指数分布、矩匹配、矩阵分解等

指数分布

高斯分布、二项分布、多项分布、泊松分布、伽玛分布和贝塔分布都属于指数分布。它的一般形式是

Aη)是累积量函数。

其指数eᴬ是归一化因子,A(η)也称为对数配分函数。η是自然参数。T(x)被称为充分统计量。在许多特定的分布中,如伯努利分布,它等于x。

考虑以下伯努利分布,其取值为1的概率为α,值为0的概率为1- α。我们可以用指数形式重写伯努利分布。

然后

h,T和A的选固定择将定义一个特定的指数分布,如伯努利分布。如果我们转换η,它将成为恢复伯努利分布的模型参数α的逻辑函数。

因此,它可以用自然参数η表示为指数,而不是用参数α来建模伯努利分布。

对于二项式和泊松分布

到目前为止,我们的分布只需要一个参数来建模。对于由多个参数建模的分布,η将包含值向量。

许多概率模型中的概率密度,如在图模型中由马尔可夫随机场MRF建模的概率密度,可以表示为指数。

因此,指数族分布成为建模概率模型的自然选择。

让我们来看看Aη)的导数

它的一阶导数是充分统计量T(x)的期望。对于T(x)=x,这个导数等于分布的均值。

在泊松分布中,用传统的积分定义计算E[x](均值)并不容易。将T(x)定义为泊松分布中的x,A '(η)等于E [ x ]。一般来说,微分比积分简单,我们利用它来解期望。

二阶导数A '(η)等于方差。

A的导数实际上帮助我们定义了分布。

矩匹配

矩定量地描述了函数的形状。定义为

这一矩被称为关于零的矩。但是如果我们先用平均值减去x,它将被称为中心矩。

k阶矩等于a(η)的k阶导数。

A(η)是凸函数(其二阶导数大于0)。由于A'(η)= μ,η具有与μ(力矩参数)的一对一映射。

根据充分统计量t(x)的定义,导数A'η),A''η),...... Aᵏη)具有特殊的意义,可以通过采样数据进行估计。因此,我们在样本数据、分布矩和分布参数之间创建一个链接。在机器学习中,我们要用q*来模拟种群密度p。在矩匹配中,我们从样本数据中计算矩,以使它们的充分统计量的期望值相匹配。

假设绘制的所有数据都是iid,最大似然估计将是:

可以通过从样本数据中找出充分统计量的平均值来计算μ。这称为矩匹配。估计后,我们可以找到分布的参数。

考虑一个简单的zero-centered分布f

让我们看看如何通过采样计算分布参数σ。矩计算如下:

这些矩是钟形分布的均值和方差。我们可以通过采样来估计二阶矩。

通过将理论矩和样本矩联系起来,得到了对σ(sampled σ)的估计。

在上面的例子中,通过积分求E (x)和E (x²)很容易。一般来说。对于许多其他指数分布来说,这并不容易,比如gamma分布。

自然参数及其逆定义为:

充分统计为(log x,x),a(η)为

使用Aη)的导数,我们找到了充分统计的期望

然后利用样本数据计算充分统计量的平均值,对上述参数α和β进行反求。

贝叶斯推断

频率推断从事件的频率得出结论。如果我们两次掷硬币两次正面(head),p(head)等于100%吗?然而,由于样本量太小,频率推断不太可能发布这样的结果。

贝叶斯推断利用贝叶斯定理从似然和先验信念中导出后验分布。当有新的观测结果时,我们将后验转换为先验,并根据新的证据计算新的后验。由于后验是一个确定性分布而不是一个点估计,我们可以继续将其与新的证据相结合,形成一个新的belief。简言之,我们从某个p(h)开始,并在新的证据下继续更新后验。

例如,可以通过结合汽车如何移动的动态模型和GPS之前的测量数据来开始对汽车位置的预先判断。或者我们甚至可以完全从直觉或经验开始一个先验。给定当前传感器读数,我们形成了给定不同位置假设的当前传感器读数的可能性。利用贝叶斯推理,我们可以得到给定传感器读数的当前汽车位置的概率分布P(H|E)。

我们将后验转换为前验,以便下一次迭代时进行新的观察。样本量越小,似然曲线越宽,峰值越低。我们还没有画出足够的数据来排除许多可能性。因此,如果后验是强的(窄的和尖的),后验将与前验相似。当收集到的数据越多,似然值越尖,后验分布越接近似然曲线。

Frequentist vs Bayesian

Frequentist应用最大似然估计来找到解释观察结果的最佳模型参数。贝叶斯聚焦在模型参数θ上,并使用贝叶斯定理计算模型参数的后验。

贝叶斯推断在给定观察的情况下计算不同模型的概率。当然,对于高维或大的连续空间,这可能非常复杂。进一步简化似然模型和先验模型是可行的。或者我们可以通过采样或近似来解决这个问题。

根据样本收集的方式,回答P(x|y)可能比回答P(y|x)更容易。有时,概率很容易在相反的方向上建模。例如,P(y | x, θ)和P(θ)通常用高斯分布或β分布建模。下面是贝叶斯线性回归的一个例子。

我们忽略贝叶斯定理中的分母P(y | X),因为它不是θ的函数。对于P(y | x, θ)和P(θ),我们在贝叶斯线性回归中用单独的高斯模型对它们进行建模。实际上,P(y |X)或P(X)通常很难计算,所以这是优化后验的一个很好的简化。

在贝叶斯定理,我们有相对较大的自由选择模型P(θ)。但并不是每个选择都是相等的,这个选择影响后验分析计算的难易程度。如果相应的后验函数属于前验函数的同一类分布,则前验函数是共轭前验函数。由于后验在下一次迭代中经常被用作先验,我们可以简单地重复同样的数学计算后验。例如,如果似然和先验都可以用高斯函数建模,那么后验函数也是高斯函数,易于计算。

如果模型θ可以使用共轭先验对应于特定似然分布来建模,我们通常可以容易地和分析地解决后验。

Beta分布的贝叶斯推断

对于二项分布,我们可以使用beta分布对其进行建模。如果可能性是二项式或伯努利,我们将在beta分布之前选择我们的共轭。这个选择使得我们可以将后验分布为β分布,并且可以容易地分析计算计算。

这是关于使用β分布来寻找后验的框架,其中我们对p(data|θ)和p(θ)都使用β分布。后验p(θ|data)将是β分布,所涉及的数学只是一些补充。

让我们考虑一个人接触病毒的感染率。如果我们没有先验知识,我们可以从均匀分布开始先验(如下)。贝叶斯推理中的后验与频率论的结果相似,因为我们的belief较弱。

否则,我们可以从一些基于过去经验、知识甚至直觉的先验知识开始。然而,如果我们的belief是错的,我们需要收集更多的数据来逐渐重塑后验曲线。

让我们看看贝叶斯推理与频率推断的不同之处。在贝叶斯中,我们首先认为流感感染率可以建模为B(2,6)。这将是我们下面的第一张图。假设我们只有一个实验室结果,并测试呈阳性。一个普通的频率推断者会说根据样本感染率是100%。但我们知道这在科学上是不合理的。但是对于贝叶斯来说,随着结果的逐渐出现,我们仍然可以利用贝叶斯推理得出某种结论。从某种角度来看,如果我们先验是合理的,贝叶斯推理给我们一个合理的图像。

Gamma分布作为共轭先验

如果似然可以用高斯分布来建模,我们可以用伽马分布作为共轭先验。

似然px |θ)的高斯分布可以用以下形式表示

应用贝叶斯定理,我们也可以以Gamma分布的形式推导出后验。

Dirichlet - 多项式的共轭先验

Dirichlet分布是多项式的共轭先验。

后验是:

Dirichlet分布也是分类分布之前的共轭:

共轭先验概述

以下是对应于特定似然分布的一些其他共轭先验。

预测与正则化

利用bayes定理,在给定观测值的情况下,计算了θ模型的后验概率。假设模型参数θ为zero-centered高斯分布,则先验p(θ)在目标函数中转化为l2正则项。从概念上讲,p(θ)可以看作是一个正则化因子。它可以惩罚成本函数。如下图所示,如果我们事先知道θ是什么样子的,我们可以对p(θ)应用一个相当复杂的模型。

为了进行新的预测,我们在训练中使用后验p(θ| X,y)作为p(θ)。然后我们通过积分θ得到边际概率p(y 0 | x 0)。这是边际推断。我们通过将其他所有内容相加来计算变量的概率。

导数

雅可比矩阵和Hessian矩阵

这些矩阵分别是f的一阶和二阶导数。

这种表示法称为分子布局。hessian矩阵是对称的。具有hessian矩阵和向量v的二次方程的上界是

下面,我们使用分母布局。它是分子布局的转置。

这是微分一个向量和一个矩阵的结果

矩阵分解

图形解释

我们可以通过将x投影到x轴和y轴来表示二维向量x。因此数据点可以表示为(xᵢ,yᵢ)。我们可以选择单位向量q并计算x对q的投影。投影向量为qqᵀx,其大小等于qᵀx。

在机器学习(ML)中,我们将特征从高维空间提取到低维潜在空间(比如k维)。概念上,我们把x投射到k个不同的向量q ⱼ上。选择qⱼ是很重要的。如果做得正确,我们可以使用更少的成分来表示信息。例如,如果我们选择下面的q 1和q 2,我们可以忽略q 2(蓝点)。它们可能太小,我们可以忽略它们。但是,如果我们选择x轴和y轴,则情况并非如此。

SVD将矩阵分解为独立的成分。SVD中选取的所有q相互独立(正交),即提取的特征不相关。从概念上讲,SVD选择第一个q,当其余成分被删除时,则最小化下面的最小平方误差

XXᵀ是对称的。 最优q(命名为q 1)将是XXᵀ的特征向量,具有最大特征值λ或最大奇异值σλ=σ²

然后我们基于相同的原理选择下一个组件,条件是q彼此正交。因此,所选择的q 2将具有第二大的特征值。我们可以继续这个过程,直到我们用完特征向量。

奇异值分解(SVD)

SVD在线性代数中的表现方式不同。任何矩阵A都可以分解为

其中U由u构成- AAᵀ和uᵢ的本征向量彼此正交。类似地,v由AᵀA的特征向量vᵢ组成,该特征向量也彼此正交。

从上面的等式,A也可以写成

其中uᵢ和vᵢ是单位向量。因此,当我们评估分解成分的重要性时,我们可以忽略那些具有非常小的σᵢ的项。

如果我们仅保留具有最大σᵢ的最顶部k项,我们有效地将A的维度减小为k,即,提取的特征仅在k维度上。考虑到每个主成分的重要性,我们有效地减少了输入的维度。这就是PCA所做的。

主成分分析PCA

直观地说,两个输入特征可能相互关联,因此您可以创建一个新特征来表示这两个特征。对于主成分分析,我们希望找到k个独立的特征来表示我们的数据。

PCA示例

在机器学习(ML)中,SVD将包含训练数据的矩阵分解为独立的特征。例如,矩阵的行包含来自用户的电影评级。列包含电影的用户评分。

如果我们选择AAᵀ的前K个特征值,其相应的特征向量等效于下面的前K个优化q k向量:

回想一下,我们将x投影到这些主成分qk中。求出最上面K个优化的qk,将x的维数降为K,就可以得到投影向量是x的第K个潜在因子。

我们可以连接qᵢ形成矩阵Q。我们可以通过将Qᵀ与用户的电影分级相乘得出userᵢ 的潜在特征。(qᵢ是M ×1,其中M是电影的数量,Q是M × K)

SVD发现用户评级的模式(主成分)。我们可以想象一些主成分可能代表电影的类型或发行的年代。例如,zᵢ中的第一个成分可以指示用户是否喜欢喜剧。

概率PCA

在svd中,我们将x分解为USVᵀ。而概率pca模型X≈WZ。我们将使用em算法来学习W和Z,其中Z可以作为X的潜在特征。与svd不同,W不需要是正交的。列不需要是单位长度或彼此垂直。

首先,我们假设潜变量zᵢ是zero-centered高斯分布。利用W,我们可以通过WZ重建原始数据X,其中x也由高斯建模。

Z是EM算法中的潜在变量θ2,W是θ1。我们的目标是

在E步骤中,我们计算qzᵢ)的高斯分布

在M步骤中,我们进行优化

算法是:

Kernel PCA

从一个角度来看,PCA找到一组最大化qᵀXXᵀq的向量q 。由于XXᵀ是对称的,因此q将是具有最大特征值的XXᵀ的特征向量。

因此,问题变为找到具有最大特征值的特征向量。

我们用核(Kernel)替换XXᵀ以将输入映射到更高维度。这允许我们创建线性边界来对在低维空间中不可线性分离的数据进行分类。相反,PCA通常被认为是降维技术。所以这两种技术似乎都朝着相反的方向发展。然而,有时候,我们需要在变小之前变大。进入高维空间使我们能够以更简单明确的边界对信息进行聚类。一旦信息清晰地聚类,将更容易将其映射到较低维度的空间。这是PCA kernel背后的动机。让我们从以下等式开始

经过一些操作,我们得到

因此,假设矩阵K保持核结果,我们可以通过找到K的特征向量找到aᵢ。让我们用高斯函数定义核函数。x的相应潜在因子可以计算为:

下面是我们如何使用Kernel PCA 预测新输入x 0

Cholesky分解

Hermitian正定矩阵A的Cholesky分解是

Hermitian矩阵是一个等于其转置共轭的方阵。转置共轭物取每个元素的复共轭,然后转置矩阵。

协方差矩阵是对称的(如果值都是real,则是Hermitian的特殊情况)和半正定。因此,Cholesky分解通常用于机器学习(ML),以便更容易和更稳定地操作。

Moore-Penrose Pseudoinverse

对于线性方程组,我们可以计算方阵A的倒数来求解x

但并非所有矩阵都是可逆的。在机器学习(ML)中,由于数据中存在噪声,因此不太可能找到精确解。但x的解可以估算为

其中

统计显著性

空假设H 0表示两个测量现象之间没有关系,例如,财富和幸福之间没有相关性。如果观察到的数据具有统计显着性,则拒绝零假设。例如,如果我们在100次抛硬币中看到100个正面,我们可以“否定”硬币是公平的假设。因此,备择假设 H 1(一种与H 0相矛盾的假设)可能是真的(硬币不均匀)。实际上,要量化两个变量之间的关系比计算收集到的数据只是偶然发生的概率要难得多。因此,零假设是对两种现象得出结论的较好方法。

p值(概率值)是零假设为真时观测样本的概率。一个小的p值(通常≤0.05或≤0.01)显示出与原假设相反的有力证据,即偶然发生的情况很少见。

例如,在收集100个数据点之后,我们可以基于数据计算相关系数。如上所示,如果我们收集的100个数据点的相关性为-0.25,则其对应的PDF约为0.012。只有2.5%的群体可能具有小于-0.2的相关性。因此,零假设可能是错误的。

置信区间

在进行实验收集样本后。我们可以使用样本数据点来估计一个像平均值这样的总体参数(称为estimator)。置信区间可以计算为这个样本均值周围的范围。95%置信水平意味着在95%的实验中,其置信区间包含总体的真实均值。换句话说,一个实验的置信区间不包含真实均值的概率是1 / 20。

这是计算样本均值的置信区间的骨架

样本方差:

卡方检验

卡方检验(Chi-square test)是一种常用的检验方法,用于测量观察到的数据之间的相关性只是偶然的可能性,而不是两个变量之间的某种相关性。

利用上述公式计算卡方统计量。我们比较样本的实际计数和假设不存在相关性的期望计数。下面是一个决定性别是否影响宠物选择的例子。

在这个例子中,如果性别不是一个因素,我们计算了拥有汽车的男性的实际数量减去预期数量之间的差额。我们平方它,除以期望的计数然后计算相应的卡方值。在我们的表格中,我们有四种可能的组合(雄猫、雄狗、雌猫、雌狗)。因此,我们有四个自由度,我们需要把所有四个值加起来来计算卡方统计量。

对于双边检验,我们将给定的显著性水平α除以2。例如,对于α=0.05,如果卡方统计量只有0.05/2=0.025的概率是偶然的,我们可以接受相关。由于卡方分布是不对称的,我们通常会查表,看看对应的特定概率值的卡方统计量是多少。

例如,当自由度为4时,如果upper-tail表卡方统计量大于11.1,我们将接受相关性。当然,我们也需要参考bottom-tail表来检查卡方值是否太小。

探索性数据分析

为了探索数据,我们可以计算两个变量之间的协方差,或执行如下所示的散点图来发现趋势。

例如,下面的绿点和蓝点分别是SF和NY的房子。对于海拔高度>73英尺,我们有一个决策树桩,满足这个条件的很可能是SF。

范数

L1, L2-norm

Lp-norm, L∞-norm (max norm) & Frobenius norm

相似度

Jaccard相似度

Jaccard相似度测量交集大小与并集大小之间的比率。

余弦相似度

余弦相似度测量两个矢量之间的角度。

皮尔逊相似度

Pearson相关系数ρ测量两个变量之间的相关性。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
贝叶斯分类器、算法部分源代码
模式识别试题及总结
深入剖析机器学习中的统计思想
贝叶斯线性回归(Bayesian Linear Regression)
机器学习|回归算法中的贝叶斯
贝叶斯神经网络
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服