信还是不信？这是个贝叶斯问题。（修订版）

本文是作者初学概率论时阅读《概率论沉思录》的读后感。这个冬天北京真的很冷，作者一边关紧窗户一边刷着手机，看着一批批人迎着寒风，站在道德的制高点上摇旗呐喊。他们纷纷声明自己说的就是真相，感叹民智未开，人们轻信谣言。作者本人的世界观也曾跟随着这一个个令人震惊的『真相』而左右摇摆不定，因为人总是善忘的。作者这时候终于想起了自己的旧文，也最终觉得，听到各方声音后民众们会做出什么判断，应该做出什么判断，这其实是一个贝叶斯问题。

太长太数学不看版（这些看起来非常自然却又往往被人忽视的结论在文中会用数学公式推导出来）：

相信一件事情的过程: 如果一个人对几件事情存在先天性的微小偏见(认为它们的真实性稍有差异)，而之后的数据以相同的方式支持这些事情的真实性，那么最终结果是他对这些事情信任程度的差别会急剧变大，直到其完全相信一件事情而否认其他事情。（事情必须说清楚，否则越抹越黑）
一个人在给定的数据下进行判断，如果他多考虑到了一种『可能性』，且对这种可能性有先天的偏爱，则其最终的判断结果有可能完全被这种可能性所主导（震惊！！XX的真相是这样的）
如果不同的人对相同信息源的信任度不一样，那么信息源的新消息有可能减小也有可能增加大众对同一件事情看法的差异。（科学家通过论文交流成果，最终达成一致，形成主流学说。各种『可信』与『不可信』的团体和个人对社会热点发声，造成人们对其看法的两极分化）
以上各种现象是客观存在的，也是合理的。说不清楚不能怪别人误解，别人有偏见可能是因为他目光短浅，也可能是他真正经历过一些你想都想不到的事情。
每个人做判断时的背景知识（也称先验信息）包括他的三观部分和其所处利益集团的附加部分。真正的『换位思考』其实是做不到的。

PS:本文公式和数学符号过多，但为了严谨性这些东西又必须存在。所有这些都可以跳过，每个数学符号和公式的的意义都会在下方用文字解释清楚，建议阅读方法，忽略所有数学符号，只看文字部分（至少请看加粗部分），必要时可以快速往下翻，直接跳到结论部分，如果对文字部分的结论有疑问，再仔细看数学推导。

论人类思考时的贝叶斯过程

标签: 贝叶斯 , 概率论 , 思考 , 理解 | 发表时间: 2013-10-01

1. 贝叶斯推断

2. 相信与不相信一件事情

3. 可以达成与不能达成的一致

4. 说得清与说不清的道理

贝叶斯推断

从清醒的那一刻起，我们就开始不停的做着各种判断，然后根据我们的判断去指挥身体完成目标。如果我要制作一个人工智能的机器，想要它根据自己的感觉像人类一样去做一些判断，我们就需要把这种感觉给数字化，用一个实数P(A) $P (A)$ 来表示。比如说A=我今天会早点睡觉，你看了看眼前的工作，经过思考得到了P(A) $P (A)$ 的数值，叹了口气。虽然都是在计算P(A) $P (A)$ ，可为什么每个人的P(A) $P (A)$ 大小都不一样呢？或许我们不应该把这个数值记做P(A) $P (A)$ ，而应该记做P(A|B) $P (A | B)$ 或者P(A| $P (A |$ 你所知道的一切) $)$ ，读作“根据你所知道的一切而得到的A $A$ 事件为真的感觉的强烈程度”(下面简称信任度)。你的所有推测和感觉都是基于你的背景知识B（也称作先验信息）。背景知识不同的人有可能会做出相同的判断，但做出不同判断的人之间背景知识肯定不同。你的背景知识与你所处于的环境保持动态平衡，背景知识随着生活中发生的事件而不断积累和改变。

说起感觉或者推断，学过数理逻辑的同学脑中一定先浮现出这些玩意儿

如果A是对的，那么B就是对的。

A是对的⟹B是对的

这些逻辑推理方式被称为强推断(strong syllogisms)，我们得到的所有东西都是确定、唯一的，严密的服从逻辑。

但是我们从直觉上有时候还会用到下面的一种逻辑推断方式

如果A是对的，那么B就是对的。

B 是对的⟹A比原来更有可能是对的

这种逻辑演绎方式被称为弱推断(weak syllogisms)

比如 R=马上要下雨，C=现在是阴天，我们有R⟹C的因果关系。这个因果关系给你带来C⟹R的感觉(下雨==>阴天！阴天==>下雨？)，表示为P(R|CB)>P(R|B)(CB的意义为同时考虑C事件和你的所有背景知识)。现在我们瞄了一眼窗外，观察到C(现在阴天)，如果你身处多雨地带，根据你的经验B算出的P(R|CB)的数值会让让你几乎断定R(马上下雨)的发生，但是如果你处于干旱地带，你对R(马上下雨)的信任度则会低得多。类似的陈述还有“她对你好⟹ $⟹$ 她喜欢你”。

我们已经决定将对一个事物的信任度进行数字化并将其作为一个人工智能机器人进行逻辑推断的判据，那么应该如何操作呢？我确信一件事情的时候P(A|B) $P (A | B)$ 应该是多少呢？确信它不可能发生呢？于是我们就对这样一个人工智能机器设定了以下的推断原则：

它对一个事情的信任度要用一个实数P(A|B) $P (A | B)$ 来表示（也称之为可能性）。
P(A|B)定性上要与感觉本身相符合（越强烈就越大）。
如果一种感觉可以通过多种思考顺序来实现（引入不同的先验知识的顺序），那么任意一种顺序得到的感觉应该一样。P(A|BC)=P(A|CB)
它获得对一件事物的感觉的时候必须把跟这件事物的所有相关信息都考虑进去，没有选择性的忽略。
如果两台机器用于推断的先验知识完全一样，那么这两台机器一定会对一个事物有相同的看法（相同的 P(A|B) $P (A | B)$ ）。

可以从数学上证明：如果一台机器服从以上5个原则，它可以进行完全客观的判断，并且关于P(A|B)的值有下面几条性质：

乘法定律：P(AC|B)=P(C|B)×P(A|CB)=P(A|B)×P(C|AB) $P (A C | B) = P (C | B) \times P (A | C B) = P (A | B) \times P (C | A B)$
加法定律：P(A+C|B)=P(A|B)+P(C|B)−P(AC |B)
贝叶斯定律:
若A事件为真，那么P(A|B)= 1 $P (A | B) = 1$ ，若为假，则P(A|B)= 0 $P (A | B) = 0$

以上所有的性质都是通过数学方法证明出来的。比如性质4，我们并没有“设”若A事件为真，那么P(A|B)= 1 $P (A | B) = 1$ ，这个1是数学上算出来的。

被称为贝叶斯公式，是我们进行统计推断的重要公式，广泛的应用于社会的方方面面，从人工智能的分类算法到科学家们的重大发现，到处都能看到它的身影。

基于此公式的推断被称为贝叶斯推断。

推断原则1～5是符合我们进行完全客观的判断的直觉的，我们尝试用这样一套数值化的推断方式，使用贝叶斯公式去解释关于我们思考过程的一些现象。

相信与不相信一件事情

我们相信一件事物，因为P(A|B)接近1。判断P(A|B)是否接近1被称为假设检验。而我们相信它，是在我们已经积累的知识的基础之上的。在我们出生之时，先验知识接近于没有，我们通过不断感知外接刺激来进行学习，每一个新的事件都有可能改变我对一个事物的看法，表示为：

其中D $D$ 代表数据（Data），即新发生的有可能改变你的看法的一件事情。

$B$ 是背景知识(background)。

代表“非A”，即A的否定。

上式就是贝叶斯推断的基本形式。

如果D $D$ 与A $A$ 没有任何逻辑上的关系，比如D=我扔了一个硬币正面朝上，A=她喜欢你，那么就有 P(A|DB)=P(A|B) $P (A | D B) = P (A | B)$ ，D没有给你对的判断造成任何影响。如果D $D$ 与A $A$ 有逻辑上的联系，那么D给你对A的判断造成影响可以用上式来表示。

如果现在有一位『赌神』向你声称他据有超能力，你信还是不信？

当然不信了，令A=他据有超能力，D=他声称他据有超能力

P (A | B) = 10^{- 6}

:根据我的先验知识，我本来就几乎不相信他有超能力P(D|AB)= 1

P (D | A B) = 1

:根据我的先验知识，如果真的他有超能力，他一定会这么声称的

:根据我的先验知识，他像许多其他的『赌神』一样，在不具有超能力的时候声称自己有超能力。

于是(数值带入上面公式)

所以我不信。

这时候它嘿嘿一笑，掏出一份XX论文，论文中记录了他猜六面骰子读数的准确率，1000次实验全部都猜中了，并打开期刊网站证明了论文的真实性。他似乎也学过概率论的基本知识，知道如果他没有超能力的话，得到这个实验结果的概率:

为

{\frac{1}{6}}^{1000}

，几乎为零。现在的数据变为D=他1000骰子实验全部都猜中了。那么他成功的说服你了么？就像这样？

事实证明他成功的误导了你的计算，但是他不能误导你的直觉。你感觉很奇怪，但还是不相信他。

问题还是出在

的计算上，这个试子的意义是，在先验知识B的基础上，如果他不具有超能力，得到实验结果的可能性。

谁的先验知识？什么样的先验知识？

根据我的先验知识，我会怀疑论文的作者伪造数据，或者论文的作者遵守了基本的科研道德，但是这个『赌神』掌握了某种科学上可以解释的方法来作弊。比如令E=他掌握了一种科学上可以解释的方法来作弊，那么

也就是说，根据先验知识，我相信E（他作弊）比A（他有超能力）多一点

如果我有了E（他作弊）这个念头，那么通过计算，P(A|DB)≈0.1(他有超能力的可能性)，比之前他忽悠你算的小多了。可以想象，如果我们脑海中还有其他的想法FGH等… 任何一个若

(根据你的背景知识，你更相信这些事情)，这样一些小小念想的存在都会大大的影响P(A|DB)(他有超能力)

P (A | D B)

的值。

比起 P(A|DB)(他有超能力的可能性) $P (A | D B)$ ，我们试着来计算一下P(E|DB)(他作弊的可能性) $P (E | D B)$

带入上面的先验数据，并注意

有展开

于是我们得到P(E|DB)≈1 (他作弊的可能性)

=====结论的分割线=====

结论：

『赌神』给出的似乎能完全说服我们相信他有超能力的证据，最终却使我们几乎确信他在作弊！其本质原因是我们的先验知识更相信后者一点，虽然只是
的差别。
只要你多了解一种可能性（无论它的概率有多么小），经过足够多的数据更新后，它就有可能成为你确信的事情。

所以说

你尝试去说服一个人去相信A事件，仅仅给出支持A事件的数据是不够的，还要充分考虑给出的A事件有没有同时也支持了对方先验中的C事件，如果是这样而且对方先验信息中P(C|B)>P(A|B)(对方一开始相信C事件多一点)，那么你就越抹越黑，越是提出强有力的证据就越让对方相信C而不是A！
如何避免这种情况？很简单，把话说清楚！
可能性是一个『可怕』的事物，它可以成为绝望中的希望，也可能变成压死骆驼的最后一根稻草。

一个最简单的例子：P(A|DB) $P (A | D B)$ ，A=硬盘因为反复断电而损坏；B=一般硬盘不会那么容易坏吧，大概；C=404; D=他们说硬盘因为反复断电而损坏

可以达成与不能达成的一致

人类社会中有许多的热点问题，说他们热是因为讨论它的人比较多。如果人们在一个问题上很快的达成一致，那么就没有再过多的讨论这个问题的必要了。在许多问题上人们立场鲜明的分成了支持与反对的两个阵营，彼此尝试说服对方。那么随着时间的流逝，人们共同见证了越来越多的与某个热点问题有关的社会现象，大家会不会因为这些相同的数据而最终达成一致呢？概率论知识告诉我们：不一定。而生活中那些因为吵得不可开交而进入大众视野中的问题则几乎都是无法达成一致的。与此类似的，科学家们也在不断地研究科学界的各种热点问题，那么经过足够长的时间以后，大家能不能对物理世界的认识达成一致呢？这个通常是可以的。是什么原因造成了这样不同的两种结果呢？

假如我们的数据支持A的存在，即 P(D|AB)=1 $P (D | A B) = 1$ ，那么

由于

上式分母小于1，得到 P(A|DB)>P(A|B)

P (A | D B) > P (A | B)

，虽然两个人的先验 P(A|B)

P (A | B)

和

不同，这会造成他们最终的判断 P(A|DB)不同。但是他们对A的可能性的改变方向是相同的。如果A确实是正确的，就会有越来越多的证据Dn

D_{n}

出现，使得

不断变大，最终大家的

≈1（A是错误的则约等于0）。 科学家们正是这样达成一致的。可把这件事放到社会热点事件上为什么就不行了呢？如果一个热点事件真的存在一个对与错，按照上面的过程，大家的看法也应该越来越一致啊？

问题出现在我们的数据D $D$ 是什么。

对于科学界，大家主要通过论文来传播和获取可信的信息，如果一个论文有陈述D=XXX，那么我们的一般来说是相信陈述D是正确的，从而P(AD|B)=P(D|B)P(A|DB)=P(A|DB) $P (A D | B) = P (D | B) P (A | D B) = P (A | D B)$ ，我们可以放心的把他放到条件中去。当然，论文中的错误也许在所难免——但这又给了他人发表论文反驳它的机会，就像中微子超光速事件一样，催生出了一大波论文，除了灰头灰脸的意大利人以外，借此机会发表论文的科学家们应该都在偷着乐吧^_^…

那么对于不可信的或者说是不完全可信的信息D $D$ ，我们应该如何把他加入到先验中呢？我们需要评估两个方面的东西

$P (D | A B)$ P(D|AB) 如果A是真实的，有多大的可能性会得到D数据
如果A是不真实的，有多大的可能性会得到D数据

对于科学论文的情况，D=“实验数据表明A是正确的”, P(D|AB) $P (D | A B)$ 对应于“如果A理论正确，他们的研究有多大的可能性得出实验数据表明A是正确的结论？”，考虑到实验中的误差等因素，这个值会很接近1，但不会是1（科学家才不给你100%的承诺的，最多给你个n个9的承诺）,而

就表示“如果A理论不正确，他们的研究有多大的可能性得出实验数据表明A是正确的结论”，也就是说，这代表了他们的实验设计的有问题或者伪造数据或者作者是意大利人等等的可能性。这个可能性也不会是0，但是比1小得多。由于P(D|AB)<>和

，我们上面的到的方向性的结论不能保证存在。但是这并不影响科学界达成一致，形成“主流”学说，因为大多数的数据都满足

（论文中的实验是有效的，且没有编造数据），这归功于我们现在的论文评审体系。

而对于社会问题，每个人认为的P(D|AB)<>(事件真实存在，且被正确报导的可能性) $P (D | A B) < 1$ 和

(事情不存在，却被当成存在一样被报导的可能性)就要弥散的多。我们获取数据D的方法有：电视、报纸、网络等。也就是说一些人或组织声称了一件事情的发生，但是是否相信或完全相信这个数据则因人而异。比如D=X先生声称某药品不安全，S=这个药品真的安全，现在有三个人，他们在判断P(S|DB)

P (S | D B)

的过程中的各种参数为

P(S|B)=(0.9,0.1,0.9)，即第一三个人一开始就认为这个药物大概是安全的，而第二个人并不信赖这个药物。
，他们都相信如果药品真的不安全的话，X先生真的会声称它不安全。
P(D|SB)=(0.01,0.3,0.99)，当药品真的安全时，第一个人觉得X先生不会说这种违心的话的，而第三个人则觉得X先生几乎一定会说谎称这个药不安全。

带入上面的数据，我们得到P(S|DB)=(0.083,0.032,0.899) $P (S | D B) = (0.083, 0.032, 0.899)$ ，下面我们来看看这三个人为什么会得出这样的判断

P的改变(0.9==>0.083):X先生是一个好人，为国家的公共卫生事业做出了很多贡献，原来我非常相信这个药物的安全性的，但是听了X先生的话以后，我再也不会购买这种药品了！
P的改变(0.1==>0.032):我本来就不太相信这个药品，虽然X先生不值得完全的信赖，但是他这么说的确让我更为确信我的判断了。
P的改变(0.9==>0.899):X先生是一个混蛋，他收了其他公司的钱，不遗余力的再黑这个公司的这种药物，他的陈述几乎就不影响我对这款药物的判断。

=====结论的分割线=====

可以看出，当P(D|AB)<>(每个人认为的，事件真实存在，且被正确报导的可能性)和

(每个人认为的，事情不存在，却被当成存在一样被报导的可能性)弥散很大的时候，新数据对人们的影响程度不一样，一致就很难以达成了。

说得清与说不清的道理

可理解性

由上文的分析可知，如果两个人的先验知识B不同，那即使给定相同的信息D，他们对于事件A也很有可能无法达成一致（甚至会强烈的得出截然相反的结论）。这两个人会觉得对方“不可理解”，“颠覆三观”，“像SB一样”。而这很正常，因为这两个人的三观在这件事情上本来就有很大的分歧。倘若发生了超自然的事件，颠倒了两个人的先验知识（三观），那么可以想像，这两个人会翻转自己的看法然后继续相互鄙视。所以说，世界上不存在“不可理解”的事件。只要一个人不存在相关生理上的病变（或者药品的滥用等），那么他的思考方式就应该像我们上面构建的那台机器那样“随着感觉走”，他所作出的一切都是在自己三观基础上的判断，对于他本身都是再也自然不过的事情。无论它品德高尚还是道德沦丧，无论他积德行善还是罪大恶极，他所作出的一切都是符合他自己的世界观，虽然其他的人可能觉得这件事情完全的“不可理喻”。但凡碰到不可理解的事情，只需要简单的想像一下：“如果我是他，从小到大与他有着完全相同的经历，那么碰到他哪一种情况，我会怎么办，我会不会比他做的好，还是不如他？”，这就是我们常说的“换位思考”。当然了，做到真正的“换位思考”是很难的，一个人最基本的三观不是一天两天几次交流就能形成和改变的，一个人的阅历决定了这一切。

因此，如果你想要说服一个人，想要让别人理解你，唯一的方法就是与他交流三观，让他跟这件事情有关的三观和你保持一致，这样的话，你不需要特意的去费心思“证明”一个事物。他会自然与你有相同的想法的。

不可接受性

即使你可以很好的做到“换位思考”，世界上还有有很多你无法接受的事情，比如犯罪。你可以因为一个罪犯幼童时期的悲惨遭遇而同情他，但是社会是无法容忍这种犯罪行为的，因为人们都有一个共识，

=社会应该是安定的，我们要采取必要的行动去维持他。然后因为这样一个先验知识的存在

就是显然的了，尽管这一种做法是可能使你觉得有某莫名的伤感。

不可避免的，我们都处在一个个的利益集团中，首先写入我们基因中的就有B1= $B_{1} =$ 我们要尽可能保证自身的利益，B2= $B_{2} =$ 我们要尽可能保证家庭的利益，这样一些先验知识可能会完全主导对一个事物的判断。我们可能对与自己利益无关的事情基于自己的先验知识做出任何种类的评价，但是一旦涉及到自身、自己所在团体的利益，我们对外所表现出的做法就必须的被这些利益所主导，就像《亮剑》中的李云龙与楚云飞，虽然私交甚好，彼此敬重，但战场上还是要毫不留情的消灭对方。甚至被反转，除非你消除或者削弱那些先验知识，比如韩国狗血剧中常见的门第不符的婚姻闹剧。

有时候，我们的判断经常会被一些“身不由己”的先验知识所影响，产生“从道德上我应该这么做，但是从利益上我应该那么做”的这种令人矛盾的决定。但这并不矛盾。因为你得到这两种不同的看法时使用的是不同的先验知识，你是两台不同的人工智能机器，一台代表超然世外的你自己，一台代表处于利益集团中的你自己，所有的判断在你所采用的先验知识层面都是合情合理的，只是有一些你无法接受就是了。

生活中好多事情都是可以理解但是无法接受的，但这就是生活。

客观性

再来讨论一下我们的逻辑推理基本准则3和4

如果一种感觉可以通过多种思考顺序来实现（引入不同的先验知识的顺序），那么任意一种顺序得到的感觉应该一样。
P(A|BC)=P(A|CB)
获得对一件事物的感觉的时候必须把跟这件事物的所有相关信息都考虑进去，没有选择性的忽略

这两者代表着客观性。

但是从我们人类思考时的情况来说，这两者都很难完全的做到。

首先我们的先验知识源于我们的记忆，有一些事情在我们进行思考的时候并没有被回忆起来，也就没有加入我们的进行判断的先验知识中去。其次我们进行复杂的判断是需要精力的，有一些问题我们并不是不能想明白，而是没有“尽我们所能的”去想明白。我们也许就花费少许精力对这一个问题做出不完备的简单的判断，然后把判断的结果存入了记忆中，下一次需要的时候直接调取记忆的结果。还有一种情况是我们不愿意去进行这个思考，可能在你调取先验知识的时候回想起了一些不愉快、你不愿意再想到的问题。以上三种情况可以用一个人失恋时期的心里状态来举例，没有失恋过的同学也可以在恋爱的过程中找到对应。什么？你没有谈过恋爱？那就可以把你现在的心里状态对号入座了。

混沌性

人是一个……无法找到合适形容词的复杂系统。我们的思考过程大多数时间符合我们的基本准则，但是也许你哪一天激素分泌过剩、饮酒过量、用药不慎等就做出了平时你不会做出的判断。除了这些外在随机的不确定性事件的影响，你对一些事物的感觉也无法强词夺理的完全用这些基本准则来解释。这些感觉源于你的直觉，也仅仅只是你的直觉，无法解释。就像眼前的美景使你感动，耳边的歌声让你心醉，身边的姑娘令你砰然心动，记忆中的场景令你回味无穷。智慧的存在是大自然的奇迹，我们不奢求去完全了解其中的奥秘，正是这种不确定和混沌的性质，使我们摆脱了机械论的束缚，创造了多彩的人类社会世界。

PS:本文为E.T.Jaynes的Probability Theory——The Logic of Science（中文译名：概率论沉思录）的读后感，向E.T.Jaynes致敬！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。