博弈论中的纳什均衡——完全信息静态博弈

说起博弈论不得不提纳什均衡，这是纳什给人类带来的伟大财富。萨缪尔森（Paul A Samuelson）曾经说过，你可以将一只鹦鹉训练成经济学家，因为她所需要的只有两个词：供给与需求。博弈论专家坎多瑞（Kandori）引申说：要成为现代经济学家，这只鹦鹉还必须在多学一个词，这个词就是“纳什均衡”这凸显出纳什均衡在经济学中的地位。

美丽心灵剧照

什么是纳什均衡？我们从最经典的囚徒困境说起。有2个囚徒如果双方都坦白则各判5年，如果一个坦白一个不坦白则，坦白的无罪释放不坦白的判8年，如果都不坦白则各判1年。这样的话2个囚犯应该怎么选择呢？

囚徒对应收益表

在囚徒1看来，如果囚徒2选择不坦白，那么自己选择不坦白的收益是-1选择坦白的收益是0则应该选择坦白；而如果囚徒2选择坦白，那么自己选择不坦白的收益是-8选择坦白的收益是-5也应该选择坦白。所以最后囚徒1只能选择坦白，囚徒2也是同样的情况，最后双双选择坦白，这个最终策略就是纳什均衡点，因为双方是不会选择其他的（因为谁选择不坦白而另一个人选择了坦白，他会得到比-5更低的收益）。

然而从2个人的总体结果来看，这不但不是最好的反而是最差的结果（总体收益-10最糟）。亚当斯密曾经说过每个人由追求自身最大利益出发最后能够使得整体利益最大化。由上面囚徒困境看出显然是有问题的，纳什的伟大之处正是发现这点。

囚徒困境的最终策略为（坦白——坦白）这种单一选择的策略行为我们称之为纯策略，而相对应的均衡点就表示为纯策略纳什均衡点。如果没有固定纯策略呢比如猜硬币，2个人，一个人盖硬币一个人猜硬币他们的收益如下图，显然没有固定策略，这个时候双方就需要在可选策略中按一定的概率来随机抽取决策，而这以策略不能让对方有机可乘。

硬币双方收益表

对于上面的猜硬币游戏显然采取（0.5,0.5）的策略是最稳妥的，因为这样对方选正面和反面的期望收益相等。所谓的期望收益可以由全部可能收益乘以它发生的概率在加总求和得到。而（0.5,0.5）的策略就是混合策略的纳什均衡点。

纳什最大的贡献就是对于上面所说的混合策略纳什均衡的存在性证明，即一定存在一个混合策略纳什均衡点使得双方的策略稳定不易改变。

再来说一下副标题，所谓完全信息指的是博弈双方信息都是公开的。静态指的是博弈双方同时采取策略，而不是一方出完再由另一方采取对应策略（例如下棋），上面提到2个模型都是完全信息静态博弈。

最后来说一个有趣的例子，小偷和守卫。一个小偷要偷守卫看守的仓库。如果小偷去偷时，守卫在睡觉，则小偷得手，单如果小偷去偷时，守卫没有睡觉，则小偷被抓。并且，假定小偷得手时可得到V，如果被抓坐牢则效用为-P；守卫方面，睡觉未被偷效用为S，睡觉被偷要收惩罚，效用为-D。而如果小偷不偷则守卫没有得失。此时小偷和守卫构成了静态博弈，收益如下表，相对高收益的用紫色表示：

小偷和守卫的收益表

假定守卫睡觉的概率为P(A)，则小偷去偷得到的期望收益E=V*P(A)+(-P)*[1-P(A)]。整理后得到E=(V+P)*P(A)-P。现在政府希望控制偷盗行为而加大对小偷的惩罚会产生什么样的情况，如下图：

当对小偷的惩罚从-P加强到了-P’时，守卫睡觉的概率从P(A)1增长到了P(A)2，换句话说，增加对小偷的惩罚反而使得守卫睡觉的可能性增加了，而小偷偷窃的可能性并没有改变。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。