|
传播数学:好人和骗子没博弈 博弈论是一门看上去比较好懂, 其实需要很深刻的数学背景才能理解的学科. 虽然随着博弈论在经济学, 社会学领域日益广泛的应用, 这个名字已经家喻户晓了, 但真正的博弈论, 除了囚徒困境和纳什的诺贝尔奖这样两个妇孺皆知的例子之外, 还有很多内容. 不幸的是, 从事科普的一些学者, 往往对博弈论理解不够深刻, 或者认为自己理解囚徒困境就是理解博弈论了, 结果写出来的科普文章, 往往误导读者. 我们以方舟子先生最新的一篇 <好人和骗子的博弈>[1] 为例(以下简称方文), 剖析一下什么才是正确的博弈论, 什么才是正确的对博弈论的科普.
很明显, 方文描述的是 “Nature” 于 4 月 6 日发表的一篇叫做 “Snowdrift game dynamics and facultative cheating in yeast” 的文章 [2]. 这篇文章报告了 MIT 的小组对两种酵母菌, 即能够自己制造葡萄糖和果糖的菌, 和被基因改造过后不能够自己制造单糖的菌放在一起, 研究他们随时间变化的相对种群数量大小, 即动力学特征, 这也就是题目中的 Dynamic (动力学)的来源.
那么, 这个实验是不是一个博弈论问题呢, 粗看一下, 的确是一个博弈论问题: 两种策略, 自己制造单糖(做好人) 和 自己不产生单糖 (做骗子). 但其实, 这并不是一个博弈论问题, 而是一个很简单的动力学问题.
博弈论的研究对象是参与博弈的角色(叫做局中人, Player) 面临多个决策时, 如何正确选择决策的问题. 比如说, 您在投资的时候, 您可以选择投资股票A, 也可以选择投资基金B, 您有选择, 是博弈论研究的第一步. 如果您没有选择, 那这就不是博弈论研究的问题, 因为博弈论的全部问题就是帮您找出最佳的策略.
那么, Nature 的这篇文章里面酵母菌有没有选择呢? 答案是没有, 因为文章中, 酵母菌都是已经被基因工程定制好的, 要不就是能产生单糖, 要不不能, 请注意, 酵母菌是没有选择的. 酵母菌并不在做决策, 并不是和其他的酵母菌一起玩博弈, 而是老老实实的从体外把自己需要的糖往内部运. 只不过有的酵母菌天生能够产生单糖, 有的天生不能, 自己天生不能产生单糖的, 并不是自己的选择, 而是基因决定的. 从这个意义上来说, 这个设置根本就不是一个博弈论问题. 方文的说法”它开始被用来解决自达尔文以来就困扰着生物学家的一个生物进化难题:本质上是自私的生物个体为什么会进化出合作行为?它是自然选择作用下不加思索的本能行为,因此就连毫无思考能力的单细胞生物,也会面临着合作还是欺诈的两难,比如酵母菌.” 是非常不准确的, 只要认真阅读 Nature 上的文章的读者就知道, 酵母菌只有一种选择, 不存在这样的两难, 况且, 这篇文章也不是要帮助酵母菌解决这样的两难, 而是用这样的两难, 说明一个完全是好人和完全是坏人的群体, 都是不能长久维持的. 方文作者以为酵母菌面临的是一个博弈问题, 实在是差之千里了.
那么, 不是好人和骗子的博弈, 是什么和什么在博弈呢? 答案是, 没有博弈, 只是借用了博弈的模型和参数而已. 这篇文章最最关键的内容, 就是研究好酵母和坏人酵母遇到一起的时候, 他们各自的收益情况. (见下面评论)
传统的博弈论问题, 都集中在研究一轮博弈的情况. 自从1981年 Axelrod 和 Hamilton 在 Science 上发表了赫赫有名的 “The evolution of cooperation” 后, 通过多轮的博弈进化出合作的思想被引入了生物学. (Axelrod 是一名政治学教授, 是普利策奖得主和 McArthur 基金会的 fellow). 虽然都是属于博弈论的研究范畴, 但是研究方法截然不同, 博弈论中的传统方法也不再适用. 以囚徒困境为例, 单轮的囚徒困境, 最好的方法是求出纳什均衡点, 然后按照均衡点提供的概率, 选择合作或者背叛, 而多轮的囚徒困境, 完全和单轮的不一样. 多轮囚徒困境目前最好的策略叫做 Tit for Tat, 也就是针锋相对策略, 基本的思想是重复别人上轮的策略, 这样, 既能够促进合作, 也能报复背叛. 而按照数学均衡点给出的随机算法, 在这样的多轮模拟上, 结果就很差.
方文说, “一个处于“囚徒困境”的群体是很不稳定的。”, 事实上, 这句话完全是在对 Axelrod 1981 年的里程碑式的论文完全无视的情况下做出毫无根据的结论的. 事实上, 在 Axelrod 的普利策获奖图书 “The Evolution of Cooperation” 中, 就提到, 计算机模拟表明, 在多轮囚徒困境中, 只要种群中有 5% 的采用针锋相对策略的个体, 那么, 这些个体就能够在不断的相互合作中, 随着进化, 淘汰其他骗子, 纯好人或者随机策略, 最后, 群体全部一致的采用针锋相对的策略. 这样的经典博弈论结果, 方文的作者明显忽略, 实在是非常遗憾. 各位每天都使用的点对点的下载工具, 如BT, 就完全是用 1981年这篇论文的结果里提到的策略管理上传(贡献)和下载(获取)的, 这个内容已经有网友介绍了[4], 这里不再多说. 试想, 如果一个像 BT 网络这样的系统都是 “很不稳定” 的话, 大家喜欢看的美国电视剧又是从哪里来的呢?
方文一共介绍了两个模型, 一个叫做雪堆模型, 一个叫做囚徒困境问题, 因为Nature 原文也介绍了这两个模型. 而方文的作者没有解释这两个模型的相互关系, 也混淆了两者非常巨大的差别. 雪堆模型的提出, 正是对囚徒困境问题在一人背叛一人合作情况下合作者遭受的巨大损失的修正. 研究发现, 囚徒困境过分惩罚了被背叛的合作, 使得合作者遭受的损失, 比都不合作还要大, 这个在现实中是不那么多见的. 因此, 科学家提出了雪堆模型, 其实就是把囚徒困境里的参数改改. 但是, 这样的一个修改, 对不对呢? 这才是 Nature 文的研究重点.
因为目前对于酵母菌产生的单糖究竟自己吸收了多少, 扩散了多少, 还是个未知数, 到底有没有保留, 需要用科学的方法验证. 所以科学家通过分析不同初始种群的进化, 研究它们随着时间的变化, 看看到底最后变成什么样, 即用动力学的方法研究种群. 如果按照囚徒困境的参数设置, 最后只能是两种情况, 骗子全死光, 或者好人全死光. 可是, 实验结果是, 他们的比例均衡了. 从这样的结果, 验证了作者的假设, 即雪堆假设, 而不是囚徒困境假设, 并且求出了上面说的未知数. 这样的科学方法和科学手段, 才是 Nature 文的精华所在.
方文的最后一句话是: “因此,这更像是雪堆博弈. 特立独行是最佳策略:举世皆好人时当骗子,举世皆骗子时当好人,这样最有可能获得成功”, 这完全是不理解博弈论的所做的煽情发挥了. 这篇文章和模型, 只是揭示了种群在每个个体都选择永远不变的策略的情况下的策略. 在现实中, 你可以在某时某处遇到全是好人的群体, 您可以做骗子; 但是您永远不可能在所有的时刻骗了所有人. 在社会中, 人都是聪明的, 不是只有一种策略的酵母菌, 人的策略是会变化的. 一个人做了一次骗子, 下次就不一定做得成了. 多轮博弈论的很多考量, 都是在于如何对付变化了的策略. 如果人人都是做一辈子的好人或者骗子, 人类社会每人都自己贴上一个我是好人或者我是骗子的标签, 然后在大街上数数别人的标签数量自己特立独行, 这该是一件多么有想象力的事情啊.
其实, 科普是一件技术含量很高的活, 往往需要很仔细的文献阅读和专业的知识. 以我的专业, 数学为例, 越是是看上去简单的数学, 越是需要深刻的数学背景只是. 如果不是专业人士, 仅看几个名词, 就会认为自己全懂了, 可以讲给别人听了, 通常的结果就是误导读者.
总的来说, 方文并没有分清楚”雪堆博弈问题”和”雪堆博弈参数假设导致的动力学”这样两个截然不同的概念, 也没有仔细区分单轮博弈和多轮博弈的区别, 同时, 没有确切的介绍这两个模型之间的关系, 也没有精当的介绍MIT文章的最核心的结果和所使用的科学方法. 最后的煽情发挥, 更是和多轮博弈的思想南辕北辙, 相差巨大.
[1] 方舟子《好人和骗子的博弈》
[2] Gore, J. et. al. Snowdrift game dynamics and facultative cheating in yeast. Nature
[3] Axelrod, R. & Hamilton, W. D. The evolution of cooperation. Science 211, 1390–1396 (1981).
[4] P2P客户端的策略和奇妙的对策论 http://tinyurl.com/cta83f
|