什么?谷歌最近又有大动作?他们计划加速机器人学习进程,让更多机器人通过分享它们的经验,获取更多技能点?
是的!Google Brain team 的 Sergey Levine 以及来自 Alphabet 的 DeepMind 和 Google X 实验室的高手们通力合作,在几天前发了篇博文,说他们接下来要打造一个叫“多机器人通用技能学习”的机制。
众所周知,指导机器人做一些日常生活中最基本的事情已经困扰所有机器人学家几十年了。为了解决这个问题,谷歌科学家们决定让两大当红科技创新炸子鸡强强联手,看看能不能搞个大新闻。其一是云机器人——这个概念认为机器人可以在线分享数据和技能;另一个便是机器学习,也就是通过应用深度神经网络让机器人实现自主学习。
在科学家们进行的一系列实验中,独立的机械臂会不断重复一个指定的任务。不出意外的是,在长时间的任务执行过程中,每个机器人的技术水平都会得到一定提高,它能学会适应外部环境以及自身运动的轻微变化。但是,谷歌团队并没有就此满足。他们把机器人习得的这些经验输进一个大数据库里,从中建立技能模型,如此一来,机器人就可以更快更好地完成任务。
“机器人学习到的技能(比如推东西、开门等等)还是相对简单了点,但是通过快速高效的集体学习,在未来机器人的行动会更加丰富,这样它们就可以在日常生活中为人们提供各种各样的辅助了。”
早前,Levine 和来自 Google X 实验室的同事们展示了深度学习网络是如何帮助机器人自学抓物的。在那项研究中,一组机械臂不停地抓抓抓,抓了大概八万多次,简直丧心病狂。尽管一开始它们总是失败连连,但是通过神经网络的不断训练,成功率便有了显著的提高。
在最近的一项实验中,谷歌科学家们测试了三个不同的场景。
第一个场景中,机器人从试验和错误实践中直接学习运动技巧。每个机器人从一套神经网络开始,尝试一次一次地开门。每隔一段时间,这些机器人们就会把它们性能数据传输给中央服务器,这个服务器会利用数据打造一个全新的神经网络,从而更好地分析运动和成功率之间的关系。接着,这个服务器会把更新完成的神经网络传输给机器人。“因为这个更新了的网络对动作幅度的估测更加精准,所以机器人们的表现会更好”,科学家们写道。“这个过程可以无限循环往复,从而不断提高机器人执行任务的能力。”
在第二个场景中,科学家们希望机器人可以学习如何与物体互动,这个互动的过程不只限于试验和错误实践,还包括建立内物体、环境以及它们自身行为的内部模型。比如,在刚刚提到的开门任务中,每个机器人都会有自己的一套神经系统,它们会和各种不同的物体互动。这些机器人会分享它们的经验,然后一起打造科学家们口中所谓的“单独预测模型”,让它们更好地了解与它们发生互动的物体。你可以通过单独一个机器人打造类似的预测模型,但是如果融合了许多机器人的经验的话,这个过程会快很多。
在第三个场景中,机器人在学习过程中会得到来自人类的帮助。要知道,人类和外界物体以及整个世界互动的过程中,总是有很多直觉。而在一些控制技能的帮助下,我们可以把这些所谓的直觉转化到机器人身上,让它们更好地学习这些技能。在实验中,一个科学家帮助一组机器人,开启各种不一样的门,而一个中央服务器控制的单独的神经系统会对它们的行动进行编程。接着,这些机器人会反复进行一系列的试验和错误实践,这个实践的难度会慢慢攀升,好让神经网络不断升级。“试验和错误学习以及人类指导的结合,让机器人在几个小时内,可以一起学习如何开门,”科学家们写道,“因为机器人训练开了各种外表不一样的门,所以在决胜局中,机器人们要开一扇它们从未见过的有一个把手的门。”这些科学家,小算盘打得溜溜的。
谷歌团队认为,它们的机器人的水平目前还是非常有限的。但是他们希望随着机器人和算法的进步和普及,集体学习能让机器人执行任务的能力大大提升:
在以上提到的三项实验中,机器人之间交流、交换经验的能力让它们能更好更快地学习。尤其是当我们将机器人学习和深度学习融合到一起的时候,交换经验的重要性就更不容忽视了。老早以前,我们就知道,在有大量训练数据的情况下,深度学习的运作会非常棒。比如,IamgeNet 标准检查程序就利用了超过一百五十万经过分析的数据。而这些大量的数据,是不可能由单独一个机器人在几年的时间内收集到的。然而,如果是几个机器人协同作战的话,数周内我们就可以获取等量的数据。
如果你对这个研究方向感兴趣的话,可以猛戳此链接,读读谷歌研发团队 po 在 arXiv 上的文章,其中两篇他们已经投给了 2017 年的 ICRA 了哟。
via IEEE Spectrum