Maluuba 位于蒙特利尔(加拿大东南部港市),是加拿大的人工智能初创公司,于今年年初被微软收购。雷锋网了解到,该创业公司及其研究团队致力于开发一种更为优异的机器智能工具,以分析无结构化文本,从而使人机交互更加自然。团队日前完成了他们的处女作《Multi-Advisor Reinforcement Learning》,这是该团队前段时间的工作重心。
其论文强调了“多重引导强化学习机(multi-advisor reinforcement learning)”理论,将问题分解得更加简单且易于计算。此外, Maluuba 公司正进行有效的尝试,教会机器一些领导技巧。从而化解以往的困难问题。
有哪些问题亟待解决?
死板,是目前人机交互界面仍然无法克服的难题,并且这种交互很容易出现各式各样的问题。 雷锋网了解到,虽然目前行业领先的 Siri , Alexa 和 Cortana 已远远超过以往的对话系统,但是它们表现出的智能仍然和普通的人类智力相差甚远。
如果我们从计算机的角度出发,思考这一系统可拥有的最大能力时,我们就可以理解:即使是一个容纳尽可能完整体系的模型,也不足以替代工程师创造出特定需求的智能工具,而只能在某些限定下有良好的表现。这就是为什么你可命令 Siri 帮你打电话,但是不能要求它组织一场大型晚宴。
强化学习( reinforcement learning, 机器学习的分支)从被提出以来,倍受智能领域研究工作者的关注。如之前的描述,强化学习从经济学家的实用性概念中借鉴了新的思想,并不断尝试量化并反复地评估和给出决策。采用“游戏化”机制处理问题,并图形化地设置一些智能系统可以优化的“节点”,这样智能系统就可以改进,而不是直接的为自动汽车定义所有的行驶规则。当驾驶超过双黄线时,系统可以动态的丢弃一些节点;当系统维持在速度限定内时,系统可以有保留的加入一些节点。这一思想可为系统提供更多的自适应性,但是这仍是一个相当复杂的问题,需要很大的计算量。于是,多重引导强化学习机的到来将巧妙化解这些问题。
问题解决
针对强化学习,Maluuba 试图解决这些复杂的问题。他们的方法是使用多重“引导者”(“advisors”)的概念来突破问题,将其约减并模块化。传统的强化学习算法采用的是单智能体( Agent )强化学习法(Single-Agent reinforcement),但是近期采用多智能体的算法已经越显常见了。
在 Maluuba 的访谈中,该团队展示了一个关于智能排程助手的案例。可能有朝一日,智能算法会按不同的会议等级分配不同的智能体,而不是让单智能体学习算法去安排每一种最佳的会议日程。
困难在于,如何调动所有的智能体相互协作。
Maluuba 最初想到的方法是让这些智能体像人类一样分解问题。而让人们协同的高效工作本就是一个不小的工程,即便分而治之的思想有时可以超过单枪匹马的决策。因此,解决的方法是让聚合器( aggregator )坐在所有“引导者”的上方来做决定。在 Maluuba 的论文中,每一个引导者针对待解决的大问题都会有不同的侧重点。如果引导者们持有不同的观点,聚合器将站出来进行仲裁。
Maluuba 使用 Pac-Man 女士设计的简化版程序 Pac-Boy ,用于测试不同的多重引导强化聚合学习框架理论。该团队渴望学习人类是如何高效的分解问题。另外,如何组织及管理众多最优聚合器,在理想情况下也是存在一些通用方法的。这就是该团队热衷于此的原因。于是他们决定让机器学习“101 领导法则(leadership 101)”。
多强化学习机的优势何在?
多强化学习机可以大幅度地提升 CPU 和 GPU 的计算效率。打破这样一个计算瓶颈的同时也使得多服务器并行计算变得更加便于实施。降低计算复杂度是全世界科研工作者研究强化学习时的一把钥匙。该研究团队成员表示,这一问题也伴随着微软公司发展至今。微软开启了 Azure 云平台,为机器学习团队搭建了交流渠道。当 Azure 开始运作时, Maluuba 便扮演了语言文本分析领域的重要角色。
尽管强化学习本身并不是一个崭新的概念, Maluuba 在这上面倾注了大量的资源。团队成员肯定,团队已经看到强化学习在 DeepMind 开发的 AlphaGo 上表现出的巨大潜力,未来的联合研究项目将会带来更加有效的以及适应性更强的增强学习方法。这或许将为微软的面向会话的产品带来更多的用户。
via Techcrunch