我们应该如何认识这个世界？浅谈认识论，推理工具和条件概率

有想认识世界的欲望，有思考的能力，这是人与其他生物在生理上的最大区别，而这个欲望和能力也导致了科学和技术的产生，彻底改变了人类的生存面貌。除了世界我们想认识，我们的认识能力本身也需要研究，这就是认识论，认知论涵盖很多方面的内容，要回答最关键的问题。

例如：

世界是不是可以认识，世界的运行是因果性的，还是随机性的？

答案：世界的运行有很多方面，人类只能分别去认识，各种因素的组合无穷无尽，人类的认识也无穷无尽，科学研究没有终点，物理学的所谓圣杯解决后还会有下个圣杯。

世界的运行既有因果性的，也有随机性的，整体上是随机性的，多个具有因果性的因素组合在一起，经过多级演化，计算量几何增加，到一定程度就会超过计算能力，也就相当于随机性了。

科学理论是反映了世界的本质，还是仅仅是个人类能理解的解释工具？

答案：现在的科学都是解释工具，至于未来能否找到世界本质，不知道。

是世界导致心智的产生，还是心智产生世界？

答案：世界的一部分产生心智，心智的一部分生成世界，心智无法用科学解释，1000亿个神经细胞产生心智，1000亿个二极管只是机器。

人类发明的推理工具是否可靠？

答案：不一定可靠。推理有归纳和演绎两种。

归纳是从有限个命题总结出一般性命题，无法保证特例不出现。

演绎是从一般命题推导出特殊命题，但一般命题要么是直觉判断的，要么是归纳总结的，都不能保证一定正确。而且一般命题常常有严格的条件限制，尤其是社会科学，其假设的前提局限性都很强，现实中很少存在，所以其理论一般没多大实用价值，典型的如计量经济学。

虽然推理不可靠，但只要没有发现推理的特殊结论有错误的，我们就有必要认为理论是正确的。毕竟推理工具可以大大拓展我们的知识，人类的感官只能感受有限的信息，而且是杂乱的，而推理可以发现背后的规律，然后掌握无穷的信息。

下面只讲解推理的问题，其他问题太玄幻，实用价值不大。

推理的两种方式：归纳和演绎

归纳推理：

因为常常不能穷尽该领域内的所有命题，所以无法证明该领域内所有命题正确。如：中国的天鹅是白色的，美国的天鹅是白色的，英国的天鹅是白色了，然后推导出所有天鹅是白色的。这个就没办法保证是正确的，人类不可能把地球上所有天鹅都抓来看下颜色。

另外一个归纳的问题是有隐含假设条件，而这个条件没办法保证正确。比如：太阳前天是从东方升起，昨天也是从东方升起，今天也是从东方升起，所以明天太阳也会从东方升起。这里就有个隐含条件：太阳这几天和明天一样，不会变化。但这个隐含条件是无法保证正确的，所以这种归纳得出的新结论依然无法保证正确。

归纳本质上没法保证正确，但只要没有反例，我们只能假设正确,如果又可以通过归谬的方法证明正确，我们更可以判断其正确，归谬的本质是逻辑矛盾，逻辑是世界投射到心智上的基本秩序。

演绎推理：由大结论推导子结论，本质上没有产生新知识。大结论常常又称为假设或公理，它们的得出是通过归纳。

举例1：欧式几何学：所有结论都是10个公理的子结论，10个公理是头脑中归纳出来的，想象不出反例，如两点确定一条直线，想象不出确定2条的例子。

举例2：牛顿的万有引力定律: 是由开普勒3定律和牛顿三定律推理出来的子结论，但万有引力定律更简洁，因而才是更本质的结论。开普勒3定律是通过观察数据归纳出来的。

举例3：狭义相对论：所有结论是由两个大结论演绎出来的子结论，两个大结论：光速不变和相对性原理，光速不变是实验数据归纳出来的，相对性原理是总结经验得出的，并且是大结论（自然规律是统一的）的子结论（如果这个结论不成立，大自然就是杂乱的，无法认识和总结，人类的思考就无意义）。

综上所述，人类认识自然的更源头更本质的方法是归纳。归纳出几个大结论，然后演绎出所有子结论，形成一个理论体系，解释和预测所有该领域现象，只要大结论正确，所有子结论就正确，我们就可放心使用该理论。

大结论和演绎出来的子结论间是一种因果关系，这种因果关系有两种：100%因果关系和低于100%因果关系，通常的理论体系都是指100%因果关系的。

符合100%因果关系的占比极少，大多存在于完全抽象的数学世界中和简化的物理模型中。这个就不再详细讲解，

现实世界的因果关系绝大部分是低于100%的，又叫相关性。这就涉及到推导出的结论可靠度问题。贝叶斯定理就是研究这个问题：由已知的结论，推导出另外结论成立的概率。可以说生活工作中所有方面都能用到，但大多人并不掌握这个简单的数学工具。如：各种决策判断，炒股，找工作，天气预报，疾病判断等，现在热门的有：语言翻译，图像识别，人工智能等。我们就重点讲下这个理论工具：贝叶斯定理。

贝叶斯定理，又叫条件概率，公式非常简单，有小学数学知识就可以自己推导出来。

网上有大量介绍资料，一些大咖也有专门讲解，但基本上都有错误和误导。所以有必要在这里做个较详细的讲解，为了让所有人看懂，全部使用小学算术知识讲解，并用多个例子说明。

常见错误和误导：

认为贝叶斯定理是人类认识真实世界的逼近手段，可以先随便假设一个概率，称为先验概率或主观概率，然后根据拿到的真实样本，重新计算概率，称为后验概率或客观概率。正确看法：贝叶斯定理不是逼近手段，是真实的概率，先验概率是有可能对结果造成巨大偏差的，不可随便假设一个先验概率，必须通过大样本统计得出。
使用名词：主观概率，客观概率，先验概率，后验概率。我的看法：这种称呼和名词不适合，容易造成误导，主观概率或先验概率就是所有样本的统计概率，不是主观或先验的。
认为贝叶斯定理的结论违反直觉。正确看法：不是违反直觉，是忽视了某个因素，只要语言不造成误解，关注所有数据，直觉和贝叶斯定理的结论是一致的。
医学诊断，第一次发现问题，必须要再检测。正确做法：如果是失误造成的，二次检测意义重大，若不是就没有意义。如艾滋病人某蛋白为阳性，但正常人也有极少量为阳性，若检测结果是阳性，失误造成的阳性占比不超过一半，则二次检测没意义。
算法：先算总概率，再算分概率，两个相除得出第一次发生概率，若又有新事实，在前一个算出的发生概率的基础上再同样算一次，这种算法太繁琐。简洁的算法：比值算法，直接分类算频次，然后相除得出比值，通过比值相加得出总频次，分类频次除以总频次即得出另一事件发生概率，发生的事件有多次，相斥的A的基础概率直接就多次乘以发生B的概率，最后结果相除得出比值。
数据含义模糊，有歧义，没有澄清和明确，导致读者无法理解甚至误解。

贝叶斯定理详细讲解：

贝叶斯定理就是条件概率，假设有两类事件，A事件发生导致一定概率的B事件发生，类中事件间互斥，即A1,A2,A3,..互斥，B类事件相互间没有关联。A1发生可以导致产生B1,B2..；A2发生也可以导致产生B1,B2....。已知B1发生了，求A1发生的概率，首先要算出B1发生的总频次，然后在这里面找A1的频次，后一个频次除以前一个频次就得出 A1发生的概率。接着又发生B2，这时A1发生概率是多少，同样的方法，在刚才已算出B1发生A1概率的基础上再算。这个定律是英国神父贝叶斯在18世纪发现的。

举例：

邮件箱中收到大量邮件，有诈骗邮件，有正常邮件。根据统计，诈骗邮件中出现文字：“中奖”占30%，出现“www.”占40%；正常邮件出现“中奖”占1%，出现“www.”占2%。数据统计显示邮箱中诈骗邮件占比为20%，随机抽取一封邮件发现含有“中奖”和“www.”，这封邮件是诈骗邮件的概率是多少。A类事件就是邮件类型：诈骗和正常，B类事件就是发现字段：“中奖”，“www.”

先介绍网上和教课书上的解法，再介绍一种非常简单的比值解法。

分两步求解：先算发现“中奖”后，诈骗邮件的概率，然后在这个基础上又发现“www.”概率又提升到多少。

例子中所用的“频次”是指发生的次数，在总次数是1时内涵完全和概率相同，只是有时样本有具体数量时用频次更好理解。

第一步：算发现“中奖”文字时判断是诈骗邮件的概率

有“中奖”文字的邮件的总频次：

正常邮件有“中奖”+ 诈骗邮件有“中奖”=

80% x 1% + 20% x 30% = 6.8%

诈骗邮件中有“中奖”文字的邮件频次：

20% x 30% = 6%

发现了“中奖”文字的邮件，这个邮件是诈骗邮件的概率：

6% / 6.8% = 88.23529%

第二步：又发现这个邮件还含有“www.”，这封邮件是诈骗邮件的概率是多少

这里的关键就是：这时通过发现“中奖”字样已确定诈骗邮件的可能是88.2%，不再是初始的20%，又发现“www.”要按88.23529%算新频次。

有“www.”文字的邮件的总频次：

正常邮件有“www.”+ 诈骗邮件有“www.”=

(1-88.23529%) x 2% + 88.23529% x 40% = 35.5294%

诈骗邮件中有“www.”文字的邮件频次：

88.23529% x 40% = 35.2941%

这个邮件是诈骗邮件的概率提高到：

35.2941% / 35.5294% = 99.3377%

上面就是通常所见的条件概率算法，网上和教科书上介绍的都是这种算法。其实有一个可以大大简化的方法：

把概率转化为比值：诈骗邮件的概率换成诈骗邮件和正常邮件的比值，等效的含义，但可以大大简化算法和理解：

诈骗邮件发现“中奖”和“www.”的频次:

20% x 30% x 40%

正常邮件中发现“中奖”和“www.”的频次：

80% x 1% x 2%

两者的比值：

20% x 30% x 40% /(80% x 1% x 2%) = 150:1

转化为概率： 150/(150+1) = 99.3377%

通过比值算法，可以很轻易看出初始概率值即垃圾邮件占比20%对结果有影响，所以那种说先验概率后验概率，甚至说先随意假设个先验概率，然后不断修正，这个说法有很大误导，除非后续的发生概率都很低，导致最终的概率接近100%，否则所谓先验概率，或者叫主观概率也好，对所谓后验概率影响巨大。

通过比值算法，也可以轻易看出先检查哪个文字，判断诈骗邮件的结果都一样，这个如果是增加很多文字检查，比值算法的优势更大。

垃圾邮件判断的例子用来解释贝叶斯定理网上很多，但其实这类例子不合适，因为有个暗含的条件导致第二次检测不能用贝叶斯定理，但大家都无视它，即字段“中奖”和“www.”一般不是无关的，含有“中奖”的邮件一般也会含有“www.”，所以不应该用全部样本的概率值：诈骗邮件40%和正常邮件2%。假如统计的结果是：含有“中奖”的邮件有50%含有“www.”。频值计算就应该是：

诈骗邮件频次：

20% x 30% x 50% （40%，50%取较大者）

正常邮件的频次：

80% x 1% x 50% （2%，50%取较大者）

两者的比值： 7.5 ：1

可以看出，一旦第二类事件间有关联，除了第一次检测，后续增加文字检测失去意义。

例子二（网上常见的一个例子）：

两个盒子，A装了30个红球70个白球；B装了30个红球70个白球，随意拿出一个盒子，从中拿出一个球看颜色，记下然后放回，再拿一个看颜色记下放回。如果拿了12次，8次红球，4次白球，问是盒子A的概率是多少。中间不换盒子（这一点常常不提醒）。

解法：

网上的解法都是一次次来验算，然后代入下一次，甚至用到python编程，用电脑算，非常繁琐，并且不能轻易看出先算红球或白球的顺序对结果的影响。用比值算法就简单很多。

假设拿盒子随机，都有50%概率拿到，从A盒子拿8次红球4次白球的频次：

50% x (70/100)^8 x (30/100)^4

从B盒子拿8次红球4次白球的频次:

50% x (30/100)^8 x (70/100)^4

两个盒子的频次比值就是两者概率比值：

2401 ：81

A盒子的概率就是：

2401/(2401+81) = 96.7 %

如果我们不是随机拿盒子，或者两个盒子的球数不同，例如初始拿A盒子的概率是20%：

比值就变成了:

20%x2401 : 80% x 81

12次验证后A盒子概率为88%。

比值算法很容易理解红球和白球，先演验算哪个就是先乘哪个概率因子，结果都一样，同样得出所谓先验概率或主观概率或叫基础概率肯定是有影响的，如果两个盒子的球比差别不大，这个影响就是巨大的。

例子三（网上常见的例子）：

艾滋病人某个蛋白检测为阳性的概率是99.99%

正常人某个蛋白检测为阳性的概率为0.1%

社会上患艾滋的人占比为0.01%

现检测出某人这个蛋白显示为阳性，问这个人患艾滋的概率多大？

解法：

社会中艾滋病人检测出该蛋白为阳性的频次：

0.01% x 99.99%

社会中正常人检测为阳性的频次：

99.99% x 0.1%

检测出阳性的艾滋病人频次和检测出阳性的正常人比值：

0.01% x 99.99% : 99.99% x 0.1%

= 1:10

检测为阳性的人得艾滋病的概率为1/(1+10) = 9.1%

这个例子常常用来说人的直觉是错的，其实不是直觉错，而是对数据不敏感，不能关注所有数据，稍微的数学训练，愿意简单计算的人直觉也不会错。

检查为阳性，医生一定会要求再检查一次，又检测为阳性时患病的概率是多少？

社会中艾滋病人两次检测该蛋白为阳性的频次：

0.01% x 99.99% x 99.99%

社会中正常人两次检测为阳性的频次，这时其实要分情况，分为检测出错和正常人也有阳性的，假设出错造成的正常人阳性占50%。

99.99% x 0.1% x 50%

检测出阳性的艾滋病人频次和检测出阳性的正常人比值：

0.01% x 99.99% x 99.99% : 99.99% x 0.1% x 50%

= 0.9999 : 5

两次检测为阳性的人得艾滋病的概率为0.9999/(0.999+5) = 16.666%

只升了一点概率。二次检测意义不大。

假如正常人检测为阳全部是检测出错造成的，正常人不可能为阳性，则第二次检测依然为阳性的正常人频次：

99.99% x 0.1% x 0.1%

二次检测为阳性的艾滋病人与二次检测为阳性的正常人频次比值：

0.01% x 99.99% x 99.99% : 99.99% x 0.1% x 0.1%

= 99.99 ： 1

二次检测为阳性患病的概率为： 99.99/(99.99 +1) = 99%

二次检测意义重大，但前提是正常人检测为阳全是检测失误所致，而不是正常人也有阳性的。

例子四：

某城市出租车只有红色和蓝色两种，分别为60%和40%。出现一次出租车逃逸事故，有人举报说发现是蓝色的出租车所为，警方判断举报人的可靠度为80%，警方应该认为蓝色出租车逃逸的概率多大。

这个例子的关键是对可靠度80%的理解，如果蓝色车看成是蓝色的概率是80%，红色车看成是蓝色的为0%，则逃逸车是蓝色的就是100%。如果红色车被看成蓝色的概率是20%，则蓝色出租车逃逸的概率计算就是贝叶斯定理，和上边的例子一样的算法：

60% x 20% : 40% x 80% =

3 : 8

蓝色出租车逃逸的概率是： 8/(3+8) = 72.7%

这个例子是要说明有些应用场合必须明确数据的含义，忽视数据含义会导致错误或无法理解。

总结：

通过上面4个例子，大家应该可以了解如何计算条件概率，以及容易出错和误解的地方。网上的介绍资料全部采取按次的算法，不但繁琐，而且难于理解，还喜欢用标记符号：P(Ai|Bi), i=1,2,3...。道理上并没错，但为什么不用简洁易懂的比值算法？这其实涉及到对数学工具的正确使用。数学本质上是形式推理系统，帮助降低大脑推理难度，符号代替数量，运算律代替推理逻辑，推理过程不再考虑实际意义，直接按运算律演算。数学工具最能发挥优势的地方：对象间的关系复杂，如:用微分方程组表达变化率方面的数量关系，通过积分运算就能得出对象解。如果对象间的关系简单，再用复杂数学工具反而添乱。拿上面最后的例子说明：针对的对象有红色车占比，蓝色车占比，举报人看到红色车的可靠度，举报人看到蓝色车的可靠度，红色车逃逸车祸概率，蓝色车逃逸车祸概率，针对的数量对象有6个，但这6个对象间的关系很简单，若用代数去列等式还要关注符号含义才能理解，这就失去了用代数这种高级工具的价值。

随着大数据时代的到来，各种统计数据会越来越多，条件概率的应用会更加频繁。甚至找老婆都可以根据了解到的有限信息去推算靠谱的概率，我们每个人都应该掌握这个基本工具，这样才能对外界有更准确的判断和认识。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。