近日,微软发布了两个工具:微软知识图谱(Microsoft Concept Graph)和微软概念标签模型(Microsoft Concept Tagging)。这两个听上去很学术的东西,到底是干嘛的?与我们有什么关系?
让计算机理解人类
当我们看到“1881 年 10 月 25 日”这个词条时,虽然不是知道它有何含义,但我们会认出这是一个日期。
如果有更多的提示,比如“1881 年 10 月 25 日,毕加索”,大多数人基本就能推测出这可能是毕加索的生日,因为这几乎是每个人最重要的日期。这一切都是基于常识和概念所作出的判断。
问题是,如何将人类的概念传递给机器?如何实现机器概念化?这就是微软正在做的事。
现负责这两个项目的微软亚洲研究院资深研究经理闫峻博士说:
“我们想做的,是让计算机能够更好地理解人类。理解是万事万物的基础,我们用计算机抓取过去这些不成文的开放领域的常识,能够帮助计算机更具象地了解这个世界。”
微软知识图谱(Microsoft Concept Graph)
“是一个大型的概念知识图谱系统。其包含的知识来自于数以亿计的网页和数年积累的搜索日志,可以为机器提供文本理解的常识性知识。”
这是微软官方给出的解释。你可以将它理解为一个标签化的维基百科,其核心知识库包含了超过 540 万条概念。
除了常规的“城市”、“音乐家”、“计算机”、“智能手机”外,这个知识图谱还包含了大量的长尾概念,也就是比较小众的概念,例如“抗帕金森治疗”、“名人婚纱设计师”、“基础的水彩技巧”等,而这些在普通数据库中几乎是找不到的。
此外,每条知识概念都包含一系列的实体或子概念,比如在“太阳系”的概念下,就会包括地球、火星、水星等。
微软概念标签模型(Microsoft Concept Tagging)
概念标签模型也是基于与知识图谱同样的理念而建立的,微软对其定义是:
“将文本词条实体映射到不同的语义概念,并根据实体文本内容标记上相应的概率标签。”
翻译成人话就是让计算机根据上下文理解词条的含义,比如我们说“苹果是甜的”,这里的“苹果”,显然是指水果而不是苹果公司。
现在概念标签模型所做的就是让计算机用不同的概念去描述一个词,并给出对应的概率,使得机器能够更好地理解文本。
应用
以搜索引擎为例,我们大多数人在搜索时,只会输入少量关键词,而普通搜索引擎要做的就是将短的文本映射到大量的数据库中,再返回包含有关键词的搜索结果。计算机做的只是机械的匹配,谈不上“理解”。
但概念标签模型能够“理解”你所输入的文本,并对已有的概念进行延展,从而找到其他相关性很大的信息。
微软举了一个很接地气的例子:在社交网络中,工程师在设置关键词屏蔽不当言论时,可能不是每个敏感词都能考虑到,比如屏蔽了“希特勒”、“纳粹”,却忽略了“法西斯”,但概念标签模型就能根据这些概念意识到“法西斯”也是一个需要屏蔽的词。
微软亚洲研究院表示,知识图谱和概念标签模型可以用于不同的文本处理,包括搜索引擎、自动问答系统、在线广告系统、推荐引擎、聊天机器人、以及人工智能系统等,目前已在微软多个产品和服务中得到应用。
目前微软上线了一个 Demo 版的知识图谱,不过目前暂不支持中文,对于词组的判断也不是很准确(经常会被拆分成两个独立的单词),而且,竟然没收录自家的 Surface Studio……
未来的版本将会包含基于上下文的独立概念,以及对更多语种的支持。闫峻博士透露,微软将与国内的高校合作完成中文知识库的构建。
同时,闫峻博士表示接下来机器还会学习比喻、夸张和玩笑等高层次跨领域的抽象表达方法,最后实现从短文本的理解到长文本的理解,如理解两个完全不同的故事,但语义层面在表达同样的道理等,这些都是他们未来努力的方向。
“对话即平台”
在微软看来,在下一个时代,所有的交互都会通过对话完成,而自然语言是人机沟通的关键所在。因此,一直以来,微软都非常重视自然语言技术的研究,在美国总部、印度、北京都有相应的小组研究自然语言技术。
自然语言组是微软亚洲研究院初创时成立的四大研究组之一,近年来,该部门频频发力,必应输入法、小冰、对对联、绝句生成系统都都是该部门的经典产品,最近还上线了粤语翻译系统。
在微软 Build2016 开发者大会上,微软 CEO 纳德拉首先提出了“对话即平台” (Conversations as a Platform,CaaP)的人工智能发展方向:
“我们最终将教会计算机以人类思维交流,而不是与机器人进行对抗,人工智能能够被人类所信赖。”
无论是今年对自然语言和人工智能技术公司 WandLabs 的收购,还是微软知识图谱、概念标签模型的推出,抑或是重点打造的语音助手 Cortana、小冰,都是“对话即平台”的战略产品。毕竟在错过移动互联网的浪潮后,微软绝不想在未来的人工智能战争中再吃败仗。