游客

德州扑克人机大战前 我们和它背后的AI专家长谈了一番

游客 2017-03-30 22:31:41    201154 次浏览

德州扑克人机大战前 我们和它背后的AI专家长谈了一番

2015 年创新工场 CEO 李开复获卡内基梅隆大学颁给荣誉博士毕业演讲前,与计算机学院院长 Andrew Moore 合影(中:李开复/右:Andrew Moore)

文/腾讯科技孙实

近日,一条关于“人机大战”的新闻刷遍了朋友圈。这次不是比赛围棋,而是德州扑克。

2017 年 4 月 6 日至 10 日,由创新工场 CEO 李开复发起,邀请母校美国卡内基梅隆大学(Carnegie Mellon University)知名的 Libratus 扑克机器人主创团队访问中国,于海南进行一场“冷扑大师v.s.中国龙之队—人工智能和顶尖牌手巅峰表演赛”,对阵由中国扑克高手杜悦带领的“中国龙之队”,这也是亚洲首度举办的人工智能与真人对打的扑克赛事。

在比赛前夕,腾讯科技也专访到卡内基梅隆大学计算机学院院长 Andrew Moore,就冷扑大师的算法、应对德州扑克心理战、未来商业化等话题进行了交流。

冷扑大师的基础是大量的数学计算

众所周知,心理战是德州扑克相当重要的一部分,除去无法控制的运气,和累积经验下来的技术,剩下就是心理层面的,这也是德州有趣的地方。所以,通过对手的动作表情判断对手牌的强弱,是德州扑克相当重要的一种游戏技巧,而冷扑大师作为一个冷冰冰的人工智能系统,是如何应对人类棋手复杂的心理战呢?

对于腾讯科技的这个疑问,Andrew Moore 表示,冷扑大师并没有用到任何心理战的机制,完全用的是大量的数学,实际算法并不是让机器学习所谓“诈和”的招数,而且是算出诈和的数量要在多少才是最为优化的,多一点还是少一点才能产生最高的胜率。

和 AlphaGo 有哪些不同?

作为知名的人工智能系统,冷扑大师免不了会与 AlphaGo 进行一番比较。Andrew Moore 认为,其实扑克比围棋来说,游戏规则相对简单,但具有大量的隐藏信息。围棋没有隐藏信息,但是每一步必须进行很深、很广的搜索。在扑克上面,难处在于有非常多不同的诈和招数,程序必须每招去一一进行检查。扑克 AI 并没有用到神经网络和机器学习这两种技术,反倒是用了一种比较古典的线性规划。

助力谈判博弈或是商业化前景

任何一种技术,最终肯定是要服务人类、帮助企业盈利,关于冷扑大师的商业计划,Andrew Moore 表示,他自己最喜欢的一个商业应用是在所谓的企业交易或者是企业谈判,未来货物的供需或者货物的交易,可以更快地用这种 AI 驱动的商业谈判算法来进行,甚至可以通过 AI 去摸清谈判对象的底线和谈判逻辑。

以下为腾讯科技整理的专访实录:

腾讯科技:打德州扑克很重要的一个因素是心理战,我想知道在心理战当中人工智能如何发挥作用的?

Andrew Moore:我们 CMU 学校所研发的人机扑克对战,背后并没有用到任何心理战的机制,完全用的是大量的数学。所以举扑克中的诈和,实际演算法里面并不是让机器学诈和的招数,而且是算出诈和的数量要在多少才是最为优化的,多一点诈和还是少一点诈和才能产生最高的胜率,背后还是数学。

腾讯科技:未来冷扑大师 AI 商业化的运作怎么样?除了通过打德州扑克验证了它处理不完美信息的能力,未来商业化最终的目的是什么?

Andrew Moore:我自己最喜欢的一个商业应用是在所谓的企业交易或者是企业谈判,未来货物的供需或者货物的交易,可以更快地用这种 AI 驱动的商业谈判算法来进行。

腾讯科技:是指在谈判过程当中根据大数据得出对方的底价,或者推敲对方议价的逻辑吗?

Andrew Moore:是的,这个过程当中的商业谈判就可以被自动化,AI 会驱动自动化时代的到来。

问:扑克机器人最大的亮点是可以处理信息,也学会隐藏信息,是不是意味着电脑很快有一天也能够学会主动隐藏信息,如果这样的事情发生,这样会不会让人们觉得非常的恐惧跟担忧?

Andrew Moore:我分两部分回答这个问题,第一部分关于现在我们 CMU 在研发的 AI 谈判技术,其中一部分是关于隐藏事实。其中一个领域是关于拍卖或者竞标的形式,现在竞拍的形式在很多地方都已经被广泛应用了,比如说广告的竞价排名,甚至一些物流运输业行业也用到竞拍竞标的机制,竞拍中间的过程其实相对是复杂的,双方要经过序列式的猜测,我先猜你再猜,所以有一个顺序性的隐藏信息在逐步被揭露。

现在有一个非常聪明的机制,这个聪明的机制基于不同于传统竞标方式的一个演算法,叫做第二价格竞拍,但目的是为了去赢得这个竞拍,研究出来最好的策略是永远保持诚实。这个机制当中,科学家在发明 AI 谈判算法的时候所用的策略就是尽可能地促使每一个参与者都说实话,第二价格竞拍其实在传统拍卖行业中不是一个新制度,但在 AI 领域反而促进了全新发明。

第二部分说明,是有关对抗所有的网络攻击或者垃圾邮件的技术。所有电子邮箱的服务供应商过往都投注大量资源研发各种方法来阻挡垃圾邮件,但是他们绝对不能公布这些方法,一旦公布很快就会被破解了,被想攻击的不法分子所用。对于所谓的“坏蛋”,我们反而是需要一些被隐藏的演算法来欺骗他们,不告诉他们实话。

你问到科学家在做的算法或者所发明的程序,会不会有一天自己有学习能力反过来欺骗了人类?我的回答是,在现阶段还没有什么方式会促使电脑自己产生动机去做这件事情,现阶段的技术领域,电脑没有办法自行产生一个动机想去欺骗人。

问:AI 围棋和 AI 扑克有什么不同?AI 扑克是否用到神经网络和机器学习?

Andrew Moore:其实扑克比围棋来说,游戏规则相对简单,但具有大量的隐藏信息。围棋没有隐藏信息,但是每一步必须进行很深、很广的搜索。在扑克上面,难处在于有非常多不同的诈和招数,程序必须每招去一一进行检查。扑克 AI 并没有用到神经网络和机器学习这两种技术,反倒是用了一种比较古典的线性规划(linear programming)。

问:请您谈谈对于中国 AI 市场的看法,以及 AI 技术在中国市场的潜力。

Andrew Moore:我对于现在在中国市场对 AI 领域有这么热切的投资兴趣非常认同,更重要的是,我们看到 AI 能够很实质在不同产业被大量导入在自动化领域,很多现在的产业运作方式会被大量的自动化。我个人对于去发展一些平台式技术不那么感兴趣,我更感兴趣的是一些特定垂直领域的解决方案,特别是能在实际生活或商业上被用到的场景,所以我也鼓励中国的创业者,尽量设定特定垂直领域的一些应用发展。

比如说两个例子,一个是某个创业者针对有自闭症的孩子去研发一种新的解决方案,这就非常棒。但是如果只是平台式思维想要让机器学习更精进那么一点点,就不怎么吸引我。

内容加载中