游客

美国匹兹堡赌场上演德州扑克人机对决,AI半程领先

游客 2017-01-25 23:07:00    201387 次浏览

美国匹兹堡赌场上演德州扑克人机对决,AI半程领先

一场德州扑克领域的人机“华山论剑”正在美国匹兹堡的大河赌场(Rivers Casino)进行。

这场比赛名为“Brains Vs. Artificial Intelligence: Upping the Ante”(人脑大战电脑:升级版),于当地时间 1 月 11 日开幕,将持续到 1 月 30 日。四名顶尖人类扑克玩家 Jason Lee、Dong Kim、Daniel McAulay 和 Jimmy Chou,加上一个名为 Libratus 的人工智能,将在总共 12 万手的一对一无限注德扑比赛中角逐冠军荣誉和 20 万美元的奖金。

截至 1 月 23 日,也就是第九比赛日,Libratus 已通过 49240 手牌领先了 459154 美元的筹码。但无论赛果如何,“第一个战胜人类德扑选手的 AI”这个名号都已经轮不到它。

人机“华山论剑”,AI 半程领先

Libratus 的开发者是美国卡内基梅隆大学的计算机系教授托马斯·桑德霍姆(Tuomas Sandholm)和其研究生诺姆·布朗(Noam Brown)。桑德霍姆是博弈论和人工智能领域的专家,他认为在人工智能的攻势下,人类还能长期坚守扑克阵地,十分了不起。

这并不是桑德霍姆第一次带着他的 AI 大将参加德州扑克的人机大战。2016 年 4 月 24 日至 5 月 7 日,同样是在匹兹堡的大河赌场,桑德霍姆团队开发的人工智能 Claudico 在连续两周的无限注德州扑克比赛中轮流与四名排在世界前十的顶尖扑克选手(Doug Polk,Dong Kim,Bjorn Li 和 Jason Les)单挑 80000 回合,Claudico 排名第四。最终的排名顺序是:榜首的 Bjorn Li 共计赢得 529033 美元,第二名的 Doug Polk 赢得 213671 美元,第三名的 Dong Kim 赢得 70491 美元,而 Jason Les 以 80482 美元的差距排在 AI 之后。

而在更早的 2015 年 7 月,桑德霍姆的人工智能 Tartanian 在计算机无限注德州扑克比赛中技压全场。

这次上场的 Libratus 肯定比去年失利的 Claudico“功力更深”。桑德霍姆为此作出的改进主要是采用了一种新的平衡近似方法,和在后期牌局中分析可能结果的几种新方法。

目前赛程已经半,Libratus 领先四位人类职业玩家 46 万美元筹码,虽不至于说胜券在握,但起码也是大有胜算。

本可成为第一个战胜人类扑克选手的 AI,月初惨遭截胡

桑德霍姆为这场德扑领域的人机“华山论剑”造势已久,本欲力捧 Libratus 成为历史上第一个战胜人类玩家的德扑 AI,然而,这一荣誉在本月初被不幸“截胡”。

1 月初,来自加拿大和捷克的 10 位科学家在预印本网站 arXiv 上载了一篇题为《DeepStack:无限注德扑的专业级人工智能玩家》的论文,介绍了一种能在一对一无限注德州扑克中击败人类玩家的新算法 DeepStack。DeepStack 具有出牌时的“直觉”。在运用深度学习,反复自我博弈之后,DeepStack 学会了在每一个具体情境出现时进行推理。这非常接近人类玩家的“牌感”,即在当前情境下对个人牌面大小的感觉,并作出相应的决策。鉴于桑德霍姆早已将他的比赛时间表昭告天下,业界普遍认为加拿大和捷克的这个团队赶在比赛开始前夕上传论文,是存心“截胡”。

该团队邀请了来自 17 个国家的 33 名专业扑克选手挑战 DeepStack,在 2016 年 11 月 7 日到 12 月 12 日之间共进行了 44852 次较量。DeepStack 成为了首个在一对一无限注德扑中战胜人类玩家的人工智能,并且平均胜率达到了 492mbb/g(milli-big-blinds per game,一般职业玩家认为 50mbb/g是个门槛)。

尽管 Libratus 已无缘“历史第一个”的头衔,但桑德霍姆认为 Libratus 面临的对手远比 Deepstack 强,交战回合数也更多,因而在数据上更具显著性。

人类在扑克阵地上为何坚持得比围棋久?

人类玩游戏玩不过人工智能早已不是新鲜事。自阿尔法狗 2016 年 3 月挑落世界冠军李世石后,人类在棋类领域已全面沦陷。那么,为何扑克会在棋类之后沦陷,人工智能攻克扑克的特别意义又在哪里呢。

这主要是因为,此前 20 年间被人工智能攻克的西洋双陆棋、跳棋、国际象棋和围棋都是“完美信息”游戏,所有玩家在游戏中能获得的确定性信息是对称的。人工智能掌握这些游戏的难度,主要取决于游戏中需要做出的决策点(decision points)的数量,这决定了计算机需要的计算量。围棋是上述几种棋类中决策点数量最多的,因而也是最后被人工智能掌握的。一盘围棋游戏约包含有 10 的 170 次方个决策点。

而计算机之父冯·诺依曼说过,“现实世界与此不同,现实世界包含有很多赌注、一些欺骗的战术,还涉及你会思考别人会认为你将做什么。”德州扑克就是这样一种更接近现实世界的游戏,玩家只能掌握自己手上的牌,通过这种非对称的信息与对手进行博弈。

因此,虽然一对一无限注德扑游戏中包含 10 的 160 次方个决策点,要少于围棋,但它对人工智能的推理能力提出了更高的要求

《麻省理工科技评论》(MIT Technology Review)对此评价道,如果 Libratus 最终赢下这场赛事,将是人工智能的一大盛事。人工智能此前被证明极难模仿人类在扑克游戏中运动的推理和智力。扑克和跳棋、国际象棋和围棋有本质上的区别,因为扑克是一种“不完美信息”的游戏,在游戏全程,对手手中的牌面都是未知的。因此,基于所有对手可能的路径而给出最理想的出牌策略是一项极其复杂的运算,而在无限注德扑局中,对方可以在原则上下加任意注,这无疑又大大增加了挑战性。

AI 的开发者们运用博弈论和战略决策理论,在充满不确定性的情景中找到最佳策略,即所谓的“均衡”。因为情境中涉及太多的可能性,开发者们或多或少要采用一些近似的手法。

百度首席科学家吴恩达(Andrew Ng)说道,“扑克是人工智能最难攻克的游戏之一。每一步没有所谓的最优解,人工智能要采取随机的策略,这样它诈唬的时候对方才会吃不准。”

诈唬(bluff)是德州扑克的一种经典策略,它生动地体现了扑克游戏的“心理博弈”特征:即在手上的牌不够大的时候,依然虚张声势地加注,以吓退对手。为了达到好的诈唬效果,玩家的下注策略需要具备足够的随机性,以避免被对手摸清套路。总是诈唬的人和从不诈唬的人都不是一个好的德扑玩家。

就像肯尼·罗杰斯的歌词里写的,“一个赌徒要知道什么时候该跟牌,什么时候该弃牌”。而在此次人机大战中,几位人类玩家已经发现 Libratus 十分善于诈唬和不被诈唬。

《麻省理工科技评论》提到,用于开发更聪明的德扑机器人的技术将有许多实际用途。此前,博弈论就被用在干扰攻击、网络安全、出租车自动驾驶、机器人规划的研究上,这些研究都设计不完美信息情境中的决策制定。

但即使 Libratus 此次夺魁,人类仍将在牌桌边拥有一席之地:Libratus 和其代表的人工智能技术尚不能应对多人无限注德扑比赛。

内容加载中