论文链接(已收录于AI open):https://www.aminer.cn/pub/6180f4ee6750f8536d09ba5b
我们往往假设采样自某种底层分布的数据是独立同分布的。如果数据分布
对数据的了解使我们可以采用具有隐变量 z 的模型来近似数据分布,此时只有联合分布
ELBO 是边缘似然函数对数的下界
EM 算法和 VAE 都会迭代式地优化 ELBO。具体而言,它们会交替地从
我们对满足分布的数据建模,其中 θ 是模型的参数,x 为观测到的变量,z 为隐变量。对于独立同分布的观测数据
其中,
这样一来,完整的对数似然可以被分解为每个数据点的对数似然之和。在本文接下来的部分中,我们在分析中只考虑一个数据点的对数似然
图 1:基于高斯函数的三种不同 MLE 复杂度的模型
实际上, MLE 的难度会因模型
(1)等式
(2)给定
是最流行、最直接的方法。迭代地最大化 ELBO 的 EM 算法主要就是针对这个复杂度等级中的各种场景设计的,EM 算法通常是鲁棒的,可以很快收敛。
(3)边缘似然
ELBO 是本文最核心的概念之一,它是
令观测数据点为 x,我们可以通过分解
其中,
此外,我们还可以基于 Jensen 不等式推导出 ELBO:
请注意,ELBO 可以被进一步分解为下面的形式:
ELBO 为我们提供了一种找到最大似然,或近似最大似然的新方法:
公式(5)解释了 ELBO 如何最大化似然。公式(6)说明,我们可以从简单的分布族中挑选,从而近似似然,同时保证了 ELBO 易于计算。
EM 算法已经被成功地用来学习许多著名的模型(例如,高斯混合算法——GMM 和隐马尔科夫模型 HMM),它被视为 20 世纪最重要的算法之一。EM 算法是针对
(E 步)首先,我们固定 θ,在上优化
对于给定的 θ,我们将令 ELBO 最大化的
(M 步)接下来,我们固定
我们可以将公式(3)分解为:
其中,
则最优的新参数
以上的 E 步和 M 步会迭代重复直至收敛。整体的算法流程如下:
相较于梯度法,EM 算法的优点在于其单调收敛性、低计算开销,它在一些重要的模型上有出色的性能。EM 算法天然地满足概率约束。然而,EM 算法要求后验概率
若
若
其中,
当我们无法直接得到
假设某个模型满足以下要求:
其中,Decoder 编码器为神经网络。那么估计这种模型的参数是图 1 中最困难的情况。由于神经网络的存在,我们会遇到第五章中的第三种情况。如果我们将变分 EM、MCEM、Generalized EM 结合起来,就可以得到 VAE 模型。实际上,VAE 可以看做对 EM 算法的扩展。
图 2:变分自编码器
在训练编码器和解码器的过程中,我们从后验概率
VAE 与变分 EM 的联系
VAE 中的
其中,μ 和 σ 为向量。在传统的变分 EM 算法中,我们需要找到最优的
VAE 与 MCEM 和 Generalized EM 的关系
Generalized EM 认为我们无需在 E 步或 M 步中最大化 ELBO。我们可以通过 SGD 来优化和,尽管这样相较于传统的 EM 算法需要更多步运算。根据公式(4),我们有:
接着,我们通过梯度法优化
请注意,根据模型的定义,
我们通过反向传播根据重构损失
然而,由于
所以,我们需要进行重参数化处理,通过可微的操作将无关分布中采样得到的样本投影为目标分布
此时,ELBO 的梯度为:
其中,
VAE 算法的流程如下:
(1)VAE 中的解耦
VAE 和普通的自编码器之间的最大差别在于隐变量具有先验。VAE 需要最小化
(2)正向 vs 逆向 KL 散度
基于最大似然估计的生成模型实际上是在最小化正向 KL 散度
对抗生成网络(GAN)是另一种流形的生成模型,它通过对抗学习最小化 JS 散度。JS 散度是正向 KL 和逆向 KL 散度的结合。实际上,我们在函数空间中无法对生成器进行完美的优化,因此模型更加关注逆 KL 散度。逆 KL 损失倾向于在具有较高的
关于AI Open
AI Open是一个可自由访问的平台,所有文章都永久免费提供给所有人阅读和下载。该期刊专注于分享关于人工智能理论及其应用的可行性知识和前瞻性观点,欢迎关于人工智能及其应用的所有方面的研究文章、综述、评论文章、观点、短篇交流和技术说明。AI Open将作为中国面向国际人工智能学术、产业界的交流渠道,传播人工智能的最新理论、技术与应用创新,提高我国人工智能的学术水平和国际影响力。AI Open目前已被DOAJ收录,目前累计下载量已经达到6w+,乐观预计1年内能进入SCI。
联系客服