打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
神经网络的统计力学 变分平均场理论和信念传播算法

本文是黄海平教授基于书籍《Statistical Mechanics of Neural Networks》开设的本研贯通课程第三章内容--变分平均场理论和信念传播算法,由PMI组研究生余振东整理。

变分平均场理论

我们的核心目的是求解自旋系统在正则系综情况下概率分布,然而难点在于正则系综的配分函数在自旋数N比较大的情况,计算非常复杂,呈现量级求和。好在正则系综的概率分布本身具有(变分)自由能最低的特性,我们便能够利用这种特性以变分的方式不断接近自由能最低的分布。

从最大熵原理到玻尔兹曼分布

这部分内容的核心是通过最大熵原理导出玻尔兹曼分布[1],这是经典正则系综的核心。

传统的熵定义为:

其中表示玻尔兹曼常数,表示状态的角标。众所周知,熵取最大值的时候,系统达到平衡状态。为了寻求平衡态的分布,我们利用拉格朗日乘子法求熵在约束条件下取极值的分布,此时的约束有:

前者表示系统的概率归一化,后者代表系统的能量平均值不发生改变。我们利用拉格朗日乘子法:

其中表示拉格朗日乘子。继续进行求导:最终可以得到:

表示逆温度,可以由热力学第二定律推导。表示配分函数保证概率的归一化。

变分自由能

这部分内容一部分是介绍变分的思想,另一部分是解释为什么正则系综分布本身具有自由能最低的特性。为了推导便利,我们通常假设

变分的思想类似于解方程,先构建一个虚拟未知的,但范围很广的东西,然后通过一步步约束和自洽性,把它确定下来。

我们令表示系统中 个自旋的状态,系统的哈密顿量可以表示为:

此时利用变分思想,我们令变分概率表示上述系统满足的概率分布。此时系统的亥姆霍兹自由能表示为:

其中都是变分概率的函数。我们分别称之为变分内能和变分熵。

当然正则系综本身的亥姆霍兹的自由能可以表示为:

我们观察变分得到的自由能和正则系综自由能的差异:

KL散度通常被用于描述两个分布的差异,是一个半正定的量,只在分布完全相同时等于0。就此我们发现正则系综对应的分布恰好是自由能最低的分布。

通过寻求变分自由能的最低值,我们便可以得到接近正则系综的分布,如何求呢?

平均场近似

平均场近似是物理里较为常用的方法,思想在于让每个粒子感受到一个平均的场来近似与其他粒子的相互作用。具体表现为粒子之间的行为被看作是彼此独立,整体的概率分布可以表示为各粒子单独分布的乘积表示:

上式中的表示第个自旋的平均值,也叫磁化强度。在给定上述分布的情况下,系统的变分内能可以被计算:

与此同时,系统的变分熵可以被计算为 :

其中定义为自旋的熵,符号表示排除。于是平均场下的自由能可以表示为:

平均场下的变分自由能变成了磁化强度的函数,通过优化磁化强度的值,以此来达到平均场下的变分自由能最小值,我们对上式求导:

最终可以得到:

我们可以不断的迭代,以达到磁化强度的不动点,此时依靠便可以得到平均场近似下的接近正则系综概率分布的变分概率,以及吉布斯自由能(以m为函数)[2]。

贝蒂近似

平均场的方法是非常有效的,但忽视了粒子之间的相互作用。如果要考虑相互作用的影响,贝蒂近似[3]便可以派上用处。后续我们可以看到贝蒂近似的本质就是概率图推演[4]且和空腔算法等价。

为了利用概率图,我们有必要把正则系综的概率分解为因子的乘积,我们定义分解为功能节点为:

然后正则系综的概率就能变成功能节点的乘积除以配分函数:

此时的能量等于

我们现在已经可以利用概率图的推演得到因子概率和边缘概率,但这里我们选择利用纯物理的变分自由能方法可以得到和因子图概率推演一样的结果。

物理的方法是基于亥姆霍兹自由能是广延量,可以由各个小区域求和得到。这里这里的一个小区域是一个功能节点和这个功能节点近邻直接相连的变量节点或者是某个自旋变量节点。

因子分解

然后我们计算小区域内部的自由能和概率,我们用标识小区域,表示小区域内部的概率分布,我们于是可以表示小区域内的变分能量,变分熵,和变分自由能:

如果我们对所有小区域的自由能求和,会发现变量节点会在整个过程中重复求和。而每个变量节点求和的数量,恰好等于变量节点周围近邻直接连接的功能节点数目d,于是我们需要去掉d-1个变量节点带来的熵的变化。具体的操作实现是对不同的区域进行加权(计数)[5]。我们用表示要求和的总区域:

权重(计数)满足:

我们对全部小区域进行求和, 则变分能量,变分熵可以表示为:

根据定义,贝蒂变分自由能可以表示为:

这里插入一个拓展。其实整个变分分布可以写为紧凑的形式[5,6]:,此式对树图自动归一化和精确。把该式代入自由能可以直接得到上面的式子。

接下来,考虑约束条件

于是我们开始寻找变分自由能的下确界,我们利用拉格朗日乘子法

变分方程:分别对求偏导,并令其为零:

我们对上式子进行展开计算

我们整理一下

我们进行假定:

可以得到:

(让其他与概率无关项纳入概率的归一化常数)由上述第一个式子有,由上述第二个式子有,于是上述第二个式子可以重写为。注意到若,则上述的假定显然成立。

于是,我们得到贝蒂近似的最终结果[5]:

其中如果表示某个不动点,上式的结果和我们直接利用信息传递算法得到的结果是一样的。就此我们利用贝蒂近似得到了概率图推演的结果,而概率图推演的BP算法表示为:

我们再从物理角度解释一下为什么BP成立?可以理解为,节点只链接节点时候的,节点的概率分布,表示为节点传递给节点的信息。表示只断掉和a的连接,节点的概率分布,表示为节点传递给节点的信息。表示除了传向,其他近邻节点都传向了(都和有连接),经过归一化自然表示只断掉链接,自旋的分布,这是很显然的。进一步还可以有(概率收敛于一个变量节点)。另一方面,表示除了传向,其他近邻节点都传向了,表示只连接节点,功能节点范围内的概率。进一步还可以有(概率收敛于一个功能节点)。

BP算法得到的结果是:

这个结果恰好和贝蒂近似得到的结果刚好一样,就此验证了我们的说法。

BP算法举例和验证

为了解释为什么BP能有效工作,我们进行举例,首先构建如下因子图。

由图子图,可以得到的整体概率分解为:

只考虑节点的边缘概率,便可以由空腔信息传递得到下式。最后一个等号根据概率论是显然成立的(边际化)。

BP算法和空腔方法的等价性

BP算法和前一章的空腔方法是相似的,都具有树图才具有的渐进精确性,两者是等价的。空腔是基于磁化强度描述,而BP算法基于概率,下面我们验证它们的等价性。

我们把BP的两个式子联立起来,然后用磁化强度替换边缘概率

我们定义分别在的值,它们可以被计算为:

然后我们计算磁化强度,可以得到

通过引入辅助变量 使得 , 我们最后可以得到

就此我们得到了空腔的迭代方程。

贝特近似仅仅是更通用方法——簇变分方法[6]的一种成对近似。簇变分方法能够处理任意大的相关位点簇,但是,计算复杂性也随之增加。最近的发展还包括了对因子图上概率推断的环校正[7, 8]。

从贝特近似到朴素平均场近似

这部分内容的核心是寻找贝特近似和朴素平均场近似的关系,也是空腔近似和平均场近似的关系。当然平均场是基于整体磁化强度描述,空腔方法是基于的空腔磁化强度的描述,这里联系的方法是来自于整体磁化强度可从空腔磁化得到。

我们先给出平均场理论两体相互作用的磁化强度迭代方程:

上面这里我们设置为逆温度,这里方程和最开始得到的平均场方程的区别,在于由于是两体相互作用,只有,于是变量节点可以表示上替代功能节点的位置,方程本身是可以从原始图出发得到。

贝蒂近似下的空腔迭代方程为:

我们按照上面的迭代方程,对进行展开

上面最后一个等式使用了,但如果我们只考虑两体相互作用:

可以理解为节点指向之间的功能节点,可以理解为节点指向之间的功能节点,我们把上面的方程解出来,用的函数重新表示[9]:

我们带入空腔的迭代方程可以得到下面的式子:

我们假设相互作用很小,由,于是我们可以利用泰勒展开到一阶项得到下面的式子:

其中求和的第二项称为昂萨格反应项,这是自旋玻璃模型高温展开解[10,11]的一个特征。如果我们忽视第二项,我们就可以得到传统的平均场迭代方程。

关于第二项求和的,可以理解为粒子自相互作用导致。这里的自相互作用可以理解为自己的小扰动引发周围其他的扰动,其他的扰动进一步反馈回自身。

假设有两个粒子的扰动可以视为在势场处于0附近的扰动,此时的磁化强度(带有外场的平均场自洽方程)对势场的导数满足:

经过一个来回传递扰动(该扰动必须扣减)

逆伊辛问题

这部分内容是对这章内容的应用。核心应用目的是从已经发现的现象和数据,逆推出伊辛模型的耦合权重和场。这是Jaynes对吉布斯建立的统计系综的革命性贡献[14],统计系综可以反向理解为推断问题,于是奠定了21世纪初的从数据推断规律的科学基础,毫不夸张的说,如今的人工智能把数据的规律建筑在网络的权重上也是基于这一思想。

这里我们也只考虑两体相互作用的模型,为了方便推导我们仍然考虑,传统伊辛模型的哈密顿量给出

如果从无监督学习的角度来看,从已经发现的现象和数据,逆推出模型的耦合权重和场,就是一个简单的似然估计问题(后续章节会讲解这里对应于玻尔兹曼机[12])。玻尔兹曼机的权重的更新方法为:

其中表示学习率,表示对数据的平均,表示系综的平均。当然如果从我们这章知识的角度入手,我们首先假设系统满足,然后我们计算磁化强度:

我们在让磁化强度对场求导

我们给出带有外场的平均场迭代方程:

然后两边同时对求偏导(涨落-响应定理[13])可以得到以下的式子

我们可以把他变为矩阵的形式:

其中

最后,我们得到了逆化问题的平均场解:

上式只是满足的函数关系,只依赖于磁化强度,除了依赖磁化强度,还依赖自旋乘积的系综平均。为了推断我们需要从数据中求出来替代,以此推断模型的。最后需强调的是,该最大熵法则可以用来搭建理解非平衡态的理论框架(从动力学轨迹出发)。

注: 该笔记有可能遗漏必要的参考文献,如感兴趣,请咨询PMILab

参考文献

[1]. J.M. Yeomans, Statistical Mechanics of Phase Transitions (Oxford University Press, Oxford, 1992)

[2]H. Huang, Y. Kabashima, Phys. Rev. E 87, 062129 (2013)

[3]. H.A. Bethe, Proc. R. Soc. Lon. Ser. A-Math. Phys. Sci. 150(871), 552 (1935)

[4] Kschischang, Frank R., Brendan J. Frey, and H-A. Loeliger. 'Factor graphs and the sum-product algorithm.' IEEE Transactions on information theory 47.2 (2001): 498-519.

[5]. J. Yedidia, W. Freeman, Y. Weiss, IEEE Trans. Inf. Theory 51(7), 2282 (2005)

[6]. A. Pelizzola, J. Phys. A 38(33), R309 (2005)

[7]. J.M. Mooij, H.J. Kappen, J. Mach. Learn. Res. 8(40), 1113 (2007) [8]. J.Q. Xiao, H. Zhou, J. Phys. A: Math. Theor. 44(42), 425001 (2011)

[9]. F. Ricci-Tersenghi, J. Stat. Mech.: Theory Exper. 2012(8), 8015 (2012)

[10]. D.J. Thouless, P.W. Anderson, R.G. Palmer, Philos. Mag. 35(3), 593 (1977)

[11]. T. Plefka, J. Phys. A 15(6), 1971 (1982)

[12]. D.H. Ackley, G.E. Hinton, T.J. Sejnowski, Cognit. Sci. 9(1), 147 (1985)

[13]. H.J. Kappen, F.B. Rodríguez, in Advances in Neural Information Processing Systems (1998), pp. 280–286

[14]Jaynes ET (1957) Information theory and statistical mechanics. Phys Rev 106:62–79.

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
「机器学习入门」(7) 线性回归算法:原理、公式推导、损失函数
概率图模型
深度学习 word2vec 笔记
强化学习(三)用动态规划(DP)求解
[DL学习笔记]从人工神经网络到卷积神经网络
LDPC编译码基本原理
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服