游客

德扑大战次日:冷扑大师开发者说海南咋就不能搞AI?

游客 2017-04-08 12:46:49    201074 次浏览
德扑大战次日:冷扑大师开发者说海南咋就不能搞AI?比赛现场图

新浪科技 李根发自海南

没太大悬念,人族代表龙之队的劣势扩大了。

截止到北京时间22:00时,冷扑大师VS中国龙之队巅峰表现赛DAY2经过11小时的战斗中国龙之队完成8400手牌。

上半场比赛,冷扑大师保持着首日的稳健表现,领先186842记分牌。下半场比赛,冷扑大师依旧领先中国龙之队,赢得160723记分牌,DAY2冷扑大师领先347565记分牌。经过两天的比拼冷扑大师共领先412792记分牌。

不过,比赛不只有结果的胜负,还有现场有趣的观点被谈及。在德扑人机大战的前方现场第二日,新浪科技采访到了冷扑大师开发者Tuomas Sandholm教授,以及几位龙之队的队员。

1

德扑人机大战地点定在海南,让不少媒体有所惊讶。

一直以来,海南并不以互联网发展著称,所以当比赛第一日网络遇到问题重启超级计算机,以及第二日因为网络登入有延迟时,已经来到现场督战的Tuomas Sandholm教授被问到了“远程协作”的问题。

Tuomas Sandholm 是CMU的教授,是“冷扑大师”之父,他于4月6日抵达海南,而且也是他的第一次海南之旅,此前他只听说这是一个可以称作“中国夏威夷”的地方。

Tuomas Sandholm当然不认为距离和地点能给冷扑大师带来挑战。

即便首日和次日接连遇到了网络相关的问题,但Tuomas Sandholm在接受新浪科技前方采访时,还是直截了当地表示:距离不是问题,在匹兹堡、在北京、在海南,对于冷扑大师来说都一样,而且即便在冷扑大师“老家”匹兹堡比赛,具体真正的超算机房,也有30公里的距离。

Tuomas Sandholm解释了网络问题的真实原因——适配调整还未完美,不过就在接受采访时,次日上午的比赛已经接近尾声,网络再没遭遇挑战,而且冷扑大师的状态似乎越来越好了。

2

冷扑大师的状态更好了。这话不是别人瞎猜的,这话是龙之队队员许朝军说的。

他是这场巅峰表演赛中的“急先锋”,比赛开打以来,他总是第一个完赛的选手,还是其中成绩不错的选手。在第一日和第二日的4场比赛中,他有2场以上击败了冷扑大师。不过,由于此次采用的是团体计分的规则,个人选手的成绩并不希望被透露太多。

然而,新浪科技还是得到了一些确切且振奋的消息。比如在第一日的比赛中,许朝军2场比赛都击败了冷扑大师,用德扑专业术语来说是“在水上”。许朝军将此归结为之前准备工作充分,确实针对性的措施有了效果。

但在第二日上午比赛结束后,让许朝军感叹的是:冷扑大师似乎调整了策略,变强了,而且好像有了“读心术”,第二天的比赛超级难打。

Tuomas Sandholm教授证实了许朝军的感觉,他表示冷扑大师之所以可以用人工智能来定义,完全就是这种机器学习和不断优化的能力,在这方面人类的劣势显而易见。

作为这支龙之队的体能教练,许朝军透露在准备的一个多月里,龙之队从健身训练到头脑风暴,都在为这次人机大战做准备,所以当第一日“小输”惜败之后,他们备受鼓舞,但第二日展现出的实力来讲,似乎冷扑大师在一夜之间又提升了。

3

值得注意的是,这并非人工智能“遇强则强”。现场有媒体问Tuomas Sandholm说,如果完全不懂德扑、或者小白用户和冷扑大师对战,会不会出现“乱拳打死老师傅”的情况,在怪招之下把人工智能打懵?

在回答冷扑大师是否会被打懵之前,Tuomas Sandholm教授显然被这个问题问懵了,他可能不太理解这个问题的内在逻辑,所以又向翻译确认重复了几回。

在中国,正如“乱拳打死老师傅”成语存在一样,不少人仍旧认为所有的人工智能都会存在bug,而这个bug可能防高手而不防小白,正如不会下棋的虚竹破了珍珑棋局一样,如果乱打一气,是不是会让机器搞不清楚状况而陷入“死机”?

Tuomas Sandholm教授否认了这种情况的出现,他表示冷扑大师终极所在是数学原理,是概率思维,冷扑大师的目标就是通过价值网络去“赢”下比赛,而不管是高手小白,对冷扑大师的区别可能是“计算量”的差别而已。

Tuomas Sandholm还谈到,之所以可以这么去解释,是冷扑大师采用的算法是可回溯可检查的,这与AlphaGo所使用的深度学习的算法模型还有所区别。

自被李世石的神之一手击穿至今,AlphaGo团队始终未能找到机器忽然“懵逼”的原因所在。实际上,深度神经网络的黑箱问题一直备受关注,但至今仍旧不能完全解决。虽然有Google资深工程师向新浪科技透露过,AlphaGo的算法程序有多种组成,并非只有深度学习一种,但一年后DeepMind团队还是没找到出题出现的原因。

这也是Tuomas Sandholm被问到“冷扑大师”和AlphaGo谁更厉害时谈到的观点。他认为这二者无法直接比较,也无法通过比赛一较高下,因为二者所使用的方法和要研究的问题截然不同。

AlphaGo使用深度学习算法模型为主,主打有限信息条件下的计算,只要范围确定,AlphaGo就能展现出威力。

冷扑大师则针对“不完整信息博弈”,比如谈判等大量信息被隐藏的领域,是冷扑大师团队想要利用机器解决的问题。

而且发展到现在,Tuomas Sandholm认为冷扑已经到了要进入商用应用的阶段。他这次不仅代表研发团队和自己的科研弟子来华,Tuomas Sandholm还代表自己创立的公司“Strategic Machine”,他表示在不久,这家公司就会把冷扑大师带入商业谈判、网络安全、医疗方案制定等领域,并且坚信会比人类做得更优秀。

4

值得一提的是,Tuomas Sandholm强调说,这种应用还将是全球性的,不限制地域和条件的——或者说只要接入了互联网即可。

这也是德扑人机大战可以选在海南进行的原因。一方面是冷扑大师对“出差”完全不存在技术问题,另一方面则是海南当地对此次活动寄予厚望,希望把目前基础设施和诚意最大化展示,以期未来更多互联网创业者来到海南开展自己的项目。

在舆论热议的雾霾等环境问题探讨中,海南的优势更加明显:环境优美、沙滩阳光比基尼……

有意思的是,Tuomas Sandholm在得知最后比赛地点可以定在海南时,高兴地回复李开复:这么说,我可以带上我的泳裤了?!

内容加载中