博弈论的纳什均衡

网上有关“博弈论的纳什均衡”话题很是火热，小编也是针对博弈论的纳什均衡寻找了一些与之相关的一些信息进行分析，如果能碰巧解决你现在面临的问题，希望能够帮助到您。

纳什均衡(Nash Equilibrium)：在一策略组合中，所有的参与者面临这样一种情况，当其他人不改变策略时，他此时的策略是最好的。也就是说，此时如果他改变策略他的支付将会降低。在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人零和博弈中，当局中人A采取其最优策略a*，局中人B也采取其最优策略b*,如果局中人仍采取b*，而局中人A却采取另一种策略a，那么局中人A的支付不会超过他采取原来的策略a*的支付。这一结果对局中人B亦是如此。

这样，“均衡偶”的明确定义为：一对策略a*(属于策略集A)和策略b*（属于策略集B）称之为均衡偶，对任一策略a(属于策略集A)和策略b（属于策略集B），总有：偶对(a, b*) ≤ 偶对(a*,b*) ≥偶对(a*,b)。

对于非零和博弈也有如下定义：一对策略a*（属于策略集A）和策略b*（属于策略集B）称为非零和博弈的均衡偶，对任一策略a(属于策略集A）和策略b（属于策略集B），总有：对局中人A的偶对（a, b*） ≤偶对(a*,b*);对局中人B的偶对（a*，b）≤偶对(a*,b*)。

有了上述定义，就立即得到纳什定理：

任何具有有限纯策略的二人博弈至少有一个均衡偶。这一均衡偶就称为纳什均衡点。

纳什定理的严格证明要用到不动点理论，不动点理论是经济均衡研究的主要工具。通俗地说，寻找均衡点的存在性等价于找到博弈的不动点。　纳什均衡点概念提供了一种非常重要的分析手段，使博弈论研究可以在一个博弈结构里寻找比较有意义的结果。

但纳什均衡点定义只局限于任何局中人不想单方面变换策略，而忽视了其他局中人改变策略的可能性，因此，在很多情况下，纳什均衡点的结论缺乏说服力，研究者们形象地称之为“天真可爱的纳什均衡点”。

塞尔顿（R·Selten)在多个均衡中剔除一些按照一定规则不合理的均衡点，从而形成了两个均衡的精炼概念：子博弈完全均衡和颤抖的手完美均衡。囚徒困境

在博弈论中，含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”（prisoner's dilemma）博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果两个犯罪嫌疑人都坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪，各被判刑8年；如果只有一个犯罪嫌疑人坦白，另一个人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵。囚徒困境博弈 [Prisoner's dilemma]A╲B 坦白抵赖坦白 8，8 0，10 抵赖 10，0 1，1 对A来说，尽管他不知道B作何选择，但他知道无论B选择什么，他选择“坦白”总是最优的。显然，根据对称性，B也会选择“坦白”，结果是两人都被判刑8年。但是，倘若他们都选择“抵赖”，每人只被判刑1年。在表2.2中的四种行动选择组合中，（抵赖、抵赖）是帕累托最优，因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。但是，“坦白”是任一犯罪嫌疑人的占优战略，而（坦白，坦白）是一个占优战略均衡，即纳什均衡。不难看出，此处纳什均衡与帕累托存在冲突。

单从数学角度讲，这个理论是合理的，也就是选择都坦白。但在这样多维信息共同作用的社会学领域显然是不合适的。正如中国古代将官员之间的行贿受贿称为“陋规”而不是想方设法清查，这是因为社会体系给人行为的束缚作用迫使人的策发生改变。比如，从心理学角度讲，选择坦白的成本会更大，一方坦白害得另一方加罪，那么事后的报复行为以及从而不会轻易在周围知情人当中的“出卖”角色将会使他损失更多。而8年到10年间的增加比例会被淡化，人的尊严会使人产生复仇情绪，略打破“行规”。我们正处于大数据时代，向更接近事实的处理一件事就要尽可能多地掌握相关资料并合理加权分析，人的活动动影像动因复杂，所以囚徒困境只能作为简化模型参考，具体决策还得具体分析。智猪博弈

一、经济学中的“智猪博弈”（Pigs’payoffs）这个例子讲的是：

假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽（两猪均在食槽端），另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是在去往食槽的路上会有两个单位猪食的体能消耗，若大猪先到槽边，大小猪吃到食物的收益比是9∶1；同时行动（去按按钮），收益比是7∶3；小猪先到槽边，收益比是6∶4。那么，在两头猪都有智慧的前提下，最终结果是小猪选择等待。

智猪博弈由纳什于1950年提出。实际上小猪选择等待，让大猪去按控制按钮，而自己选择“坐船”(或称为搭便车)的原因很简单：在大猪选择行动的前提下，小猪选择等待的话，小猪可得到4个单位的纯收益，而小猪行动的话，则仅仅可以获得大猪吃剩的1个单位的纯收益，所以等待优于行动；在大猪选择等待的前提下，小猪如果行动的话，小猪的收入将不抵成本，纯收益为-1单位，如果小猪也选择等待的话，那么小猪的收益为零，成本也为零，总之，等待还是要优于行动。

用博弈论中的报酬矩阵可以更清晰的刻画出小猪的选择：小猪　行动等待大猪行动 5,1 4,4 等待 9,-1 0,0 从矩阵中可以看出，当大猪选择行动的时候，小猪如果行动，其收益是1，而小猪等待的话，收益是4，所以小猪选择等待；当大猪选择等待的时候，小猪如果行动的话，其收益是-1，而小猪等待的话，收益是0,所以小猪也选择等待。综合来看，无论大猪是选择行动还是等待，小猪的选择都将是等待，即等待是小猪的占优策略。

在小企业经营中，学会如何“搭便车”是一个精明的职业经理人最为基本的素质。在某些时候，如果能够注意等待，让其他大的企业首先开发市场，是一种明智的选择。这时候有所不为才能有所为！

高明的管理者善于利用各种有利的条件来为自己服务。“搭便车”实际上是提供给职业经理人面对每一项花费的另一种选择，对它的留意和研究可以给企业节省很多不必要的费用，从而使企业的管理和发展走上一个新的台阶。这种现象在经济生活中十分常见，却很少为小企业的经理人所熟识。

在智猪博弈中，虽然小猪的“捡现成”的行为从道义上来讲令人不齿，但是博弈策略的主要目的不正是使用谋略最大化自己的利益吗？美女的硬币

一位陌生美女主动过来和你搭讪，并要求和你一起玩个游戏。美女提议：“让我们各自亮出硬币的一面，或正或反。如果我们都是正面，那么我给你3元，如果我们都是反面，我给你1元，剩下的情况你给我2元就可以了。”听起来不错的提议。如果我是男性，无论如何我是要玩的，不过经济学考虑就是另外一回事了，这个游戏真的够公平吗？绅士/美女女正面女反面正面 3，－3 -2，+2 反面 -2，+2 1，－1 假设我们出正面的概率是x，反面的概率是1-x。为了使利益最大化，应该在对手出正面或反面的时候我们的收益都相等，不然对手总是可以改变正反面出现的概率让我们的总收入减少，由此列出方程就是3x+(-2)*(1-x)=(-2)*x+1*(1-x)

这个方程通俗的说就是在对手一直出正面你得到的利益，和你对手一直出反面得到利益是一样的且最大。解方程得x=3/8,也就是说平均每八次出示3次正面，5次反面是我们的最优策略。而将x=3/8代入到收益表达式3*x+(-2)*(1-x)中就可得到每次的期望收入，计算结果是-1/8元。

同样，设美女出正面的概率是y，反面的概率是1-y，列方程-3y+2(1-y)=2y+(-1)*(1-y)

解得y也等于3/8，而美女每次的期望收益则是2(1-y)-3y=1/8元。这告诉我们，在双方都采取最优策略的情况下，平均每次美女赢1/8元。其实只要美女采取了(3/8,5/8)这个方案，不论你再采用什么方案，都是不能改变局面的。如果全部出正面，每次的期望收益是(3+3+3-2-2-2-2-2)/8=-1/8元

如果全部出反面，每次的期望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。而任何策略无非只是上面两种策略的线性组合，所以期望还是-1/8元。但是当你也采用最佳策略时，至少可以保证自己输得最少。否则，你肯定就会被美女采用的策略针对，从而赔掉更多。看起来这个博弈模型似乎没有什么用处，但是其实这可能牵涉了金融市场定价中最重要的一个模型：定价权重模型了。

总的来说“博弈论”其本质是将日常生活中的竞争矛盾以游戏的形式表现出来，并使用数学和逻辑学的方法来分析事物的运作规律。既然有游戏的参与者那么也必然存在游戏规则的制定者。深入的了解竞争行为的本质，有助于我们分析和掌握竞争中事物之间的关系，更方便我们对规则进行制定和调整，使其最终按照我们所预期的目的进行运作。

博弈本意是：下棋。引申义是：在一定条件下，遵守一定的规则，一个或几个拥有绝对理性思维的人或团队，从各自允许选择的行为或策略进行选择并加以实施，并从中各自取得相应结果或收益的过程。那么你对博弈了解多少呢?以下是由我整理关于博弈是什么意思的内容，希望大家喜欢!

博弈的简介

　一个完整的博弈应当包括五个方面的内容：第一，博弈的参加者，即博弈过程中独立决策、独立承担后果的个人和组织;第二，博弈资讯，即博弈者所掌握的对选择策略有帮助的情报资料;第三，博弈方可选择的全部行为或策略的 *** ;第四，博弈的次序，即博弈参加者做出策略选择的先后;第五，博弈方的收益，即各博弈方做出决策选择后的所得和所失。

　博弈的分类

　从博弈的研究正规化来划分，可分为传统博弈论和演化博弈论;从博弈的具体应用来划分，可分为静态博弈和动态博弈。静态博弈是指在博弈中，两个参与人同时选择或两人不同时选择，但后行动者并不知道先行动者采取什么样的具体行动。对双方来说，都容易形成混沌的行为重组，由于规则的严密与精细，任何人因时间问题、资金问题、心理问题等等，致使在多次均衡后直到不明不白地造成大输，参与静态博弈和动态博弈的大部分都是这种人。动态博弈是指在博弈中，两个参与人有行动的先后顺序，且后行动者能够观察到先行动者所选择的行动。

根据参与者能否形成约束性的协议，以便集体行动，博弈可分为合作性博弈和非合作性博弈。纳什等博弈论专家研究得更多的是非合作性博弈。

　所谓合作性博弈是指参与者从自己的利益出发与其他参与者谈判达成协议或形成联盟，其结果对联盟方均有利;而非合作性博弈是指参与者在行动选择时无法达成约束性的协议。人们分工与交换的经济活动以及囚徒困境就是合作性的博弈，而公共资源悲剧都是非合作性的博弈。

　从知识的拥有程度来看，博弈分为完全资讯博弈和不完全资讯博弈。资讯是博弈论中重要的内容。完全资讯博弈指参与者对所有参与者的策略空间及策略组合下的支付有“完全的了解”，否则是不完全资讯博弈。严格地讲，完全资讯博弈是指参与者的策略空间及策略组合下的支付，是博弈中所有参与者的“公共知识”的博弈。对于不完全资讯博弈，参与者所做的是努力使自己的期望支付或期望效用最大化。

　以此博弈哲学语言也可体现出以下四种博弈分类：

　完全资讯静态博弈、完全资讯动态博弈、不完全资讯静态博弈、不完全资讯动态博弈

　其中策略性博弈应属于完全资讯静态博弈，而完全资讯动态博弈则包括扩充套件性博弈和重复博弈等;不完全资讯静态博弈则是以贝叶斯均衡等理论完成对混合策略的重新解释，不完全资讯动态博弈则是完美贝叶斯均衡为核心概念的讯号博弈。

　博弈论的介绍

　博弈论又被称为对策论Game Theory既是现代数学的一个新分支，也是运筹学的一个重要学科。

　博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。博弈论已经成为经济学的标准分析工具之一。在生物学、经济学、国际关系、电脑科学、政治学、军事战略和其他很多学科都有广泛的应用。基本概念中包括局中人、行动、资讯、策略、收益、均衡和结果等。其中局中人、策略和收益是最基本要素。局中人、行动和结果被统称为博弈规则。

　博弈论毕竟是数学，更确切地说是运筹学的一个分支，谈经论道自然少不了数学语言，外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题，所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语，听上去有点玄奥，实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局，常常寓深刻道理于游戏之中。所以，多从我们的日常生活中的凡人小事入手，以我们身边的故事做例子，娓娓道来，并不乏味。话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，斯卡尔菲丝和那库尔斯，并从他们的住处搜出被害人家中丢失的财物。但是，他们矢口否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。检察官说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你三个月的监禁，但你的同伙要被判十年刑。如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判三个月的监禁。但是，如果你们两人都坦白交代，那么，你们都要被判5年刑。”斯卡尔菲丝和那库尔斯该怎么办呢?他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，按照亚当·斯密的理论，每一个人都是从利己的目的出发，他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁———3个月，但前提是同伙抵赖，显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此，坦白还有更多的好处。如果对方坦白了而自己抵赖了，那自己就得坐10年牢。太不划算了!因此，在这种情况下还是应该选择坦白交代，即使两人同时坦白，至多也只判5年，总比被判10年好吧。所以，两人合理的选择是坦白，原本对双方都有利的策略抵赖和结局被判1年刑就不会出现。这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”，也叫非合作均衡。因为，每一方在选择策略时都没有“共谋”串供，他们只是选择对自己最有利的策略，而不考虑社会福利或任何其他对手的利益。也就是说，这种策略组合由所有局中人也称当事人、参与者的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突，各人追求利己行为而导致的最终结局是一个“纳什均衡”，也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己，这样他们必然要服长的刑期。只有当他们都首先替对方着想时，或者相互合谋串供时，才可以得到最短时间的监禁的结果。“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。不妨让我们重温一下这位经济学圣人在《国富论》中的名言：“通过追求个人的自身利益，他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说，“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此，从“纳什均衡”中我们还可以悟出一条真理：合作是有利的“利己策略”。但它必须符合以下黄金律：按照你愿意别人对你的方式来对别人，但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次，“纳什均衡”是一种非合作博弈均衡，在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展，甚至可以说是一场革命。

　从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境”这样的例子。如价格战、军备竞赛、污染等等。一般的博弈问题由三个要素所构成：即局中人players又称当事人、参与者、策略等等的 *** ，策略strategies *** 以及每一对局中人所做的选择和赢得payoffs *** 。其中所谓赢得是指如果一个特定的策略关系被选择，每一局中人所得到的效用。所有的博弈问题都会遇到这三个要素。博弈的分类

关于“博弈论的纳什均衡”这个话题的介绍，今天小编就给大家分享完了，如果对你有所帮助请保持对本站的关注！