最近,在宾夕法尼亚州匹兹堡的 River 赌场中, 4 名世界上的顶级德州扑克牌手与卡耐基梅隆大学开发的 Libratus 人工智能系统进行了一场激烈的比赛。
最终 Libratus 打败了人类棋手取得了胜利。
他们比的是“无限制德州扑克”,这种复杂的扑克游戏的投注往往要经过很多手。比赛一共持续了 20 天,每天早上 11 点前,四位棋手开始坐在电脑屏幕前与由 Libratus 控制的电脑系统展开“决斗”, 每天至少要打出 1500 次手牌,直到晚上 10 点以后才结束,整场比赛后,他们一共打出了 12 万次手牌。
在德州扑克的游戏规则中:每个玩家有 2 张牌作为“底牌”,同时还有 5 张公共牌。玩家用自己的 2 张底牌和 5 张公共牌结合在一起,选出 5 张牌,不论手中的牌使用几张(可以不用手中的底牌),凑成最大的成牌,跟其他玩家比大小。按照最后成牌大小来决定胜者。
与围棋不同,在德州扑克游戏里,双方玩家都有隐藏起来的底牌;而且人们还会使用上“欺骗、推测”等非理性的战略;但在围棋当中,对垒双方所有信息都是公开、对称的,这让人工智能不能再采取和 AlphaGo 一样的学习策略 —— 使用深度学习分析人类玩家的 3000 万份棋谱来学习下围棋的技能,再通过自己和自己下棋来改进技能。
计算机在德州扑克中需要处理的是 “非完整信息的博弈”。根据 Wired 的报道,卡耐基梅隆大学采用了一套叫做 Counterfactual regret minimization ( 反事实的遗憾最小化)算法。它会先让 Libratus 反复地进行自我博弈,随机玩上几亿手扑克,达到挑战顶尖扑克玩家的高度。
但最后让 Liratus 真正优于人类牌手的地方在于,它可以通过在计算和统计上的绝对优势,将下注范围和随机性提高到人类牌手达不到的程度,这让人类玩家难以难猜测电脑手中到底握有什么样的牌。
在卡耐基梅隆大学的 Libratus 之前。加拿大和捷克的几位科学家已经发表了能击败人类牌手的算法 DeepStack,它的原理与 Libratus 类似,而且这两套人工智能系统都注重让计算机对牌局中的具体情境进行推理,不像以前一样需要跑完所有可能的情况。
在围棋被人工智能攻陷后,为什么顶尖的德州扑克手也敌不过人工智能?这让许多玩家感到怀疑。
因为人工智能的优势在于计算能力。但在德州扑克的比拼中会带有许多人为因素,比如“运气”“互相欺诈”甚至“比拼气势”的成分。
过去计算机靠着在计算和统计上的绝对优势获得高度依赖推理、运算等竞技比赛的胜利。但那些需要揣测人心,并且理解人类情绪的过程反而是计算机最难学会的能力。
所以,在匹兹堡举行的扑克大赛中,需要打出超过一定的手牌数时,人工智能才会具有绝对的优势。人为因素的概率被稀释后,人工智能的优势得以凸显。它能记录下人类每一手牌的模式与套路,当他收集了人类对扑克理解的数据后,人类就完全无法对抗了。
但说到底,这仍然是基于大量数据的学习和训练的结果,而不是机器真的理解了你的情绪与心理。