人类行为的最佳策略

文/辰哥

为什么人类总是喜欢探索事物的本质奥秘？

这个世界包括无垠宇宙在内都是由无数的“底层法则”组成，大自然的生长规律，人类的习性也都是基于这样“底层法则”不断演变而成。

对于未知事物的探索，对于底层法则的挖掘，犹如被困在迷宫中的我们不断寻找脱困达到更高境界的方法正是实现人类社会不断进步的根源。

这一次我们一起来看看人类社会合作行为及其动力机制底层法则到底是什么？

达尔文的进化论在科学史上具有划时代的意义，其基本内涵可以概括为两句话：

一句叫做遗传变异；另外一句叫做适者生存。

这里面适者生存是被人们解读最多为弱肉强食的“丛林法则”，或者直接就理解为赤裸裸的竞争。

本质上达尔文提出关键原则二者关系就是内因和外因的关系，基因遗传变异是生物进化中的内在竞争传承机制，而适者生存则是生物在与环境诸要素竞争的外在选择过程，达尔文的理论似乎已经几乎成为在解释人类行为中家喻户晓的常识，但有人对这套竞争的逻辑发起了挑战。

从博弈论中著名的“囚徒困境”出发，哈佛大学教授马丁·诺瓦克及其团队借助计算机技术和数学建模工具进行了大量设计精妙的试验研究并改写了达尔文自古以来的“定论”，他们得到的结果是——

遗传变异、竞争选择和合作共赢共同构成了生物进化发展的三大动力之轮，三者缺一不可，一味地强调竞争偏离了世界的真实。

马丁·诺瓦克能够得出这个结论还要感谢1980年的一个实验。

1980年代，密歇根大学的社会学家，政治学家罗伯特·阿克塞尔罗德组织了一个博弈竞赛，内容就是囚徒困境，所有参与者（不同策略）两两博弈，看最终谁的收益最大。

参与者们设计了各种各样复杂的博弈策略，但最终胜出的却是一个非常简单的策略，英文叫'Tit for Tat'，一般被翻译为'以牙还牙'，更确切的含义可能是'针锋相对'。

“以牙还牙”策略简单得令人不敢置信。

首先，（第一轮）选择合作;

第二，复制上一轮对手的选择。

上一轮对手选择合作，我就选择合作；上一轮对手背叛，我就选择背叛。

这个策略实在太简单了，导致阿克塞尔罗德也不太敢相信，于是他又组织了第二次比赛，更多博弈论专家、计算机专家、心理学家参与进来，出现了更复杂更精密的算法，结果胜出方还是这个'以牙还牙'。

'以牙还牙'策略是以善良为基础，适度竞争，长期利益为上。

它主要的特点有四点。

1、友善∶'以牙还牙'首先选择合作，不主动背叛;

2、报复∶遭到背叛，就一定还击;

3、宽恕∶ 对方再次合作，就既往不咎;

4、不嫉妒∶ 每一轮最好的结果只是和对方打平。

越简单似乎就越接近真理，难道这就是人类行为的最终底层法则吗？

在计算机模拟中，这个策略似乎是无敌的，但在现实中却出现了偏差。

因为它没有考虑到人性和失误。

设想下，如果某一轮，对手不小心操作失误，或者像现实中经常会遇到的可能是无心之过，结果你选择了以牙还牙施展抱负，结果大概率就是陷入无尽的折磨……

所以博弈论专家们发明了一个在现实中更宽容的策略，可以称作'宽容以牙还牙'。在这个策略里头，对方背叛一次，我继续合作;只有当对方连续背叛两次，我再施展报复。

假如人人都宽容一些，也许更有利于全社会利益最大化。

事情衍进到这里已经非常接近造物主在写底层法则时奥秘了，不过人类的探知欲是无穷的，马丁·诺瓦克团队就此基础上又进了一步。

他推演出来的策略，叫做“赢定输移”。

这个策略同样也只有两句话：

如果我做得不好，我就会改变之前的行为；

如果我做得好，就重复我上一步的行为。

'赢定输移'策略比'宽容以牙还牙'策略胜在哪里呢?

第一，它比'宽容以牙还牙'更冷酷。不需要宽容和关注世界善良啥的，就是合作和非合作这么简单。

第二，它对认知能力的要求更低。不需要观察对手什么策略，只要看自己的得失，赚了就继续，亏了就换招。

举个简单的例子，比如一个“赢定输移”的小孩（A），抢了一个“宽容以牙还牙”的小孩（B）糖果，那么A小孩第一次会被宽容，而继续抢B小孩的糖果，从而获得更多的糖果，但是A小孩很聪明，他也不会一直抢其他小孩的糖果，因为遇到B小孩的报复，A小孩也会丢失糖果。

总体来看，“赢定输移”策略自身利益更多，不需要关注对手只看自己得失，更为简洁冷酷，我们不得不怀疑这个策略是不是真的和所谓的底层法则开始趋同了。

不过“赢定输移”策略也有一个小瑕疵。

那就是它有一个前提假设，玩家得是双方并且要同时出招才行。

科学家们通过大量的实验发现，在'同步型'的囚徒困境博弈中，'赢定输移'是最优策略;然而在'交替型'囚徒困境博弈中，'宽容以牙还牙'反而更胜一筹。

大概是因为'宽容以牙还牙'更鼓励合作，也更注重集体利益吧。

复杂的现实世界中，既不会是纯粹的'同步型'，也不会是纯粹的'交替型'，甚至可能都不会是囚徒困境博弈。话虽如此，这些有趣的思想实验对我们的决策模式还是有很大参考价值。

没有永远的善，也没有永远的恶。

随着社会秩序的建立和完善，道德体系的不断完善，人类社会的生存法则变得越来越宽容或者说“宽宏以牙还牙”，我们能适当包容别人的错误和恶性，但是当社会变得越来越友善的时候，总会出现一些穷凶极恶、自私自利的背叛者，他们强取豪夺，将人类又重新拉回到最初的自然法则中。

黑夜的极致必然是光明，光明的极致也将回归黑夜。

轮回往复，流转不休。朝代一直在更迭，但人类文明的历程终究还是不断进步，这种探索底层法则和追逐光明的过程或许才是人活一世最大的乐趣，也是不完美的人类能够根据反馈不断改善做出的最佳选择。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。