游客

李开复点评德扑人机战:AI会向人隐瞒信息?不用担心

游客 2017-04-08 02:12:49    201033 次浏览

新浪科技讯 4月8日凌晨消息,“冷扑大师”VS中国龙之队德州扑克人机大战表演赛在海南生态软件园传奇智力运动馆结束了第二天的比赛。全天共8400手牌,龙之队一共输了347565分,与冷扑大师之间的积分差距相当明显。

4月7日下午,创新工场创始人、董事长李开复做客直播间,为大家讲述了他眼中的德扑人机大战以及未来人工智能技术的应用前景。

 以下为新浪科技根据李开复博士所讲内容整理:

就像AlphaGo打败了世界冠军,德扑AI程序Libratus也是打败了美国最顶尖的选手。

人类第一次输了1万多分,第二次输了5万多分,第三次输了12万多分。我们可以看到,第一次几乎是不相上下的情况,代表中国派出的选手真的很强。但是“冷扑大师”在打完每一场(section)比赛之后,他就会进行机器学习,针对每一位牌手的弱点调整自己的参数。所以在第一天下午的比赛,他就化身为6个“冷扑大师”,针对每一位牌手的弱点调整参数,借此把差距拉到5万;第三场比赛再学习,便领先了12万。

我们可以看到机器的自我调整是非常厉害,非常可怕的。

 “冷扑大师”如何学会打德扑

其实“冷扑大师”和AlphaGo的差别还是很大的。

“冷扑大师”从来没有学过人类的牌谱,而AlphaGo先从人类的牌谱开始学起,之后再自我提升。“冷扑大师”几乎是从博弈论的理论加上德州扑克的规则,自己再不断地推进算法,所以他每一次下注与否或者每一个决策都是针对人类所有的可能性做出一个最有利于他自己的判断。这个判断做出来以后,无论人类怎样回应,对于“冷扑大师”来说都是接近最优的。而且“冷扑大师”还会不断优化自己的打法,让对手无法猜测,但他却可以猜测人类的应对方式。

如果你把“冷扑大师”的盖子掀开来,你会发现里面其实是一个特别巨大的数据库,它储存了所有牌的排列与组合,还有在当即的排列与组合之下如何去寻找一个平衡点,好让对手无法猜测出你有什么牌。

所以归根结底,还是一个巨大的统计系统。

 人工智能会向人类隐瞒信息?

从“冷扑大师”的表现上来看是在隐瞒信息,但实际上这是人类教他的。现在所有的人工智能的工具,无论是机器人、无人驾驶,还是AlphaGo或者“冷扑大师”,本质都是人类写的代码,人类操控的工具。所以他们是受人类管的,他没有意识操控自己去隐瞒信息,之所以表现出来隐瞒信息实际上是他的编程者叫他这么做的。所以不用太担心未来机器人会欺骗我们。

和围棋进行一个对比的话,我们可以看到围棋的黑白子都在棋盘上,完全公开没有隐藏的。我们可能要问,真实的应用在什么地方?需要明确的是,人的真实应用很少会全都暴露出来,德扑可能更适合应用于你去买一套房子——标价900万,你的心里预期是850万,你是该出700万慢慢往上加呢?还是直接出840万,拒绝加价呢?

说到这,我们发现商业谈判其实和德扑是很像的。这也意味着德扑未来可以克服商业谈判,甚至是政治外交、国际关系处理上的一些问题,帮助人类做出决策。

  “冷扑大师”会穷尽所有可能性

“冷扑大师”不断地评估自己的所有的可能性和对方回应的所有的可能性,还有接下来发出的牌的所有可能性,如此往复,不断推下去。

一方面,德州扑克本身的搜索的区间是比较小的,因此“冷扑大师”是可以穷尽地搜索所有的可能性的,他要做的事情就是去平衡人类的不同打法以及自己如何选择一个让人类感到两难的打法。最后的目的就是最优化对手犯错的可能性和自己获取更多积分码的可能性。打个比方,两个人玩石头剪刀布,如果你用任何策落的概率不各是三分之一,那么对方就会找到你的弱势。

实际上,除了AlphaGo和“冷扑大师”,我们现在已经被人工智能技术围绕了。、淘宝、滴滴、今日头条、知乎等公司在其各自服务用户的过程中,都已应用了人工智能技术。

除此之外,人工智能应用场景还包括金融领域、医疗领域、语音识别、人脸识别等。我预计在十年之内,人类从事的50%的工作都会被机器取代。

  希望人类选手能赢一场

目前两天四场比赛15600手牌过后,龙之队共落后412702分,平均每百手损失26.2个大盲注。龙之队与“冷扑大师”之间的积分差距已经相当明显。

形势越来越不妙,因为机器在不断的学习,当然,人类也在不断的学习。但很明显,机器学习的速度更快,因此我预测差距会越拉越大。

AlphaGo对战李世石的比赛中,人类选手最后是赢了一局的,这也为人类挽回了尊严。希望在未来的7场比赛中,我们的中国德扑选手也可以获胜一场。(徐利)

内容加载中