骑猪兜风

谷歌近期开源的SLAM方案在下一盘怎样的大棋?

骑猪兜风 2016-10-16 12:41:25    200904 次浏览

10 秒总结全文:Cartographer 是谷歌刚刚开源的使用激光雷达进行 2D/3D SLAM 的算法库。其算法本身未必拔萃,但从设计到实现都是产品级的,很可能会在 SLAM 相关业界带来不小的反响。相关业者或许需要认真审视技术路线和商业模式。

作者介绍:邵天兰,清华大学软件学院本科,慕尼黑工大硕士。在德国工作多年,深度参与了最先进协作机器人的研发。2016 年夏拒绝了硅谷数家知名企业的 offer,回国创业。作为资深程序员,追求炫酷而实用的硬核技术——当然没有比机器人更合心意的东西了。

个人知乎主页:https://www.zhihu.com/people/shaotianlan

“谷歌于 10 月 6 号在 GitHub 上开源了名为 Cartographer 的 SLAM 库。次日晚上我看到消息,顺手克隆下来代码。本来不甚以为意,不意扫了一眼之后倒抽一口气,就靠一罐红牛读代码读到凌晨四点。下面是我的一些想法,主要侧重于非技术的方面。一孔之见,权作抛砖引玉。”

Cartographer 可以使用 2D 或 3D 激光雷达来进行 SLAM(同时定位与地图构建),其中 2D 的算法在文章[1]中有描述,而代码中 3D 的算法和 2D 算法基本思路一致。我认为,Cartographer 的算法虽然算是一流,但似乎并没有牛到让我合不拢嘴的程度。泛泛总结一下 Cartographer 的算法:用 Grid(2D/3D)的形式建地图;局部匹配直接建模成一个非线性优化问题,通过 IMU(惯性测量单元)获得比较靠谱的初值,再用 Ceres 库进行求解;后端用 Graph 来优化,用分支定界算法来加速;2D 和 3D 的问题统一在一个框架下解决。

谷歌近期开源的SLAM方案在下一盘怎样的大棋?

算法的具体过程先放一边,先来感受一下算法的设计目标:低计算资源消耗,实时优化,不追求高精度。这个算法的目标应用场景昭然若揭:室内用服务机器人(如扫地机器人)、室内 AGV(如机场用的无人电瓶车),无人机等等计算资源有限、对精度要求不高、且需要实时避障的和寻路的应用。而 3D SLAM 如果能用在无人机上,也是非常炫酷且实用的事情。

学术界不少人认为,基于激光雷达的 2D SLAM 在室内、低速、静态环境的条件下已经可以认为被基本上解决了,现有成果对很多应用来说已经完全够用。例如下图是小米机器人的建图效果。请注意,这是普通用户在实际家居情况下自行使用得到的结果。我第一见到这个图的时候,惊得半天说不出一句话。在如此复杂的环境中,整个图没有明显的错位(右侧乱糟糟的房间是因为堆满杂物),两侧的墙都很直而且完美平行——而这一切都是在很低的价格下做到的。据网上消息,该扫地机器人使用的激光雷达是米家供应链研发的,成本或能低至 200 块——又是半天说不出一句话。而在 SLAM 算法层面,Cartographer 的开源使得大家不但有论文可以参考,还有代码可以直接拿来用,因此可能降低了其他厂家在算法上追赶的难度。但供应链的壁垒依然高峻。

谷歌近期开源的SLAM方案在下一盘怎样的大棋?

图片来源:知乎用户程序鱼 an

我不掌握谷歌内部关于这个项目的消息,这里诛心一点:现在扫地机器人、端茶倒水机器人、无人机等等火的不要不要的,谷歌要插一杠子进来。虽然暂时只是一个 SLAM 库,但后续发展谁知道呢?会不会出现机器人的 Android 系统呢? 谷歌在 Andy Rubin 离开后,对机器人行业的整体规划让外人看不明白(很可能他们自己也不明白),所以后续的发展也只能拭目以待了。

而且读代码之后,我认为 Cartographer 这个库最重要的东西还不是算法,而是实现。这个库实现度很高,而且非常谷歌 style。例如算法的核心部分仅仅依赖于以下几个库:

  • Boost:准标准的 C 库。

  • Eigen3:准标准的线性代数库。

  • Lua:非常轻量的脚本语言,主要用来做 Configuration

  • Ceres:这是 Google 开源的做非线性优化的库,仅依赖于 Lapack 和 Blas

  • Protobuf:这是 Google 开源的很流行的跨平台通信库

没有 PCL,g2o,iSAM,sophus, OpenCV, ROS 等等,几乎所有轮子都是谷歌自己造的。因此整个开源软件栈在事实上都是由谷歌控制的。这明显不是搞科研的玩儿法,就是奔着产品去的。前面说过,Cartographer 需要的计算资源少,依赖少,而且代码质量也很不错,因此几乎可以直接应用在一个产品级的嵌入式系统上。以前学术界出来的开源 2D/3D SLAM 算法不少,但能几乎直接拿来就用在产品上的,恕我孤陋寡闻还真想不出来。因此,我认为开发基于激光雷达的室内 SLAM 算法的门槛被显著降低了。

这个库其实不需要在效果上成为最牛的,现在看起来已经完全够用了。开源、需要资源少,代码干净拿来就能使,而且效果还不错……呼,幸亏在下是搞机器臂智能系统的,不是搞 SLAM 方案的,要不然岂不是要睡不着觉?现在创业者除了担心BAT模仿,还要担心谷歌开源。当然现在只是有基于激光雷达的算法,基于摄像头的 SLAM 仍然是很有挑战性以及实用价值的。

借 Cartographer 这件事我想斗胆分享一下我开始创业以来的一些思考。

现在机器人相关领域是创业的热点,其中一个原因就是来自学术界的研究成果逐渐接近了实用的门槛。例如前述的基于激光雷达的 SLAM,还有基于视觉的 SLAM、机器视觉、人脸识别、智能规划等等,都是基于学术界近年来的成果。

创业团队的配置也从移动互联网时代的英雄不问出处,变成了标配大量名校海归、博士、甚至博导。我司也是其中之一。学术界背景的团队有时会习惯性地从技术出发思考问题,但是产品形式、商业模式、和产业链地位对创业成功的影响很可能不亚于技术本身。学术界的成果通常会以论文的形式公开,单一团队(包括谷歌等巨无霸)很难对整个业界长久保持 25% 以上的领先,更难有碾压式的领先。

退一步讲,技术上即使能保持领先,除非恰好位于实用门槛的两侧,否则也很难形成真正的壁垒。因此有了领先的技术后,产品形式如何、商业模式如何、在产业链的地位如何,是值得花大力气研究的。特别是产业链地位,如何没有想好,很容易出现受夹板气的情况。而且也要将心比心:如果用了某产品,会使我处于产业链上很不利的地位,那么我很可能就会另谋方案。

发布短短几天,Cartographer 就已经是 GitHub 上所有有关 SLAM 的 repo 中获得 Star 最多的了(见下图),一举超过了许多诞生多年的知名 repo。就问你怕不怕!

谷歌近期开源的SLAM方案在下一盘怎样的大棋?

前两天刷朋友圈看到余凯老师呼吁大家避免使用谷歌开源的 TensorFlow(用于高效机器学习的库),我当时——

谷歌近期开源的SLAM方案在下一盘怎样的大棋?

结果才两天就被教做人了。。。。我只能算是深度学习的初级应用者,对 TensorFlow 的态度更多的是坐享其成。但是 2D/3D SLAM 对我来说就更为熟悉和相关了。熬夜读 Cartographer 的代码时,我似乎有点儿理解了余凯老师的想法。

当年微软等公司不开源,招致 Free Software Foundation 为首的键盘侠们(无贬义)的口诛笔伐。如今谷歌恨不得开源一切,搞实际控制:例如 Android(手机操作系统)和 Blink(浏览器内核),虽然都开源,但事实上都由谷歌掌控。对此我只能说:

谷歌近期开源的SLAM方案在下一盘怎样的大棋?

来自:将门创业(thejiangmen)微信公众号

内容加载中