爲了讓計算機聽懂人話，微軟又推出了兩項技術

为了让计算机听懂人话，微软又推出了两项技术

近日，微软发布了两个工具：微软知识图谱（Microsoft Concept Graph）和微软概念标签模型（Microsoft Concept Tagging）。这两个听上去很学术的东西，到底是干嘛的？与我们有什么关系？

当我们看到“1881 年 10 月 25 日”这个词条时，虽然不是知道它有何含义，但我们会认出这是一个日期。

如果有更多的提示，比如“1881 年 10 月 25 日，毕加索”，大多数人基本就能推测出这可能是毕加索的生日，因为这几乎是每个人最重要的日期。这一切都是基于常识和概念所作出的判断。

为了让计算机听懂人话，微软又推出了两项技术

问题是，如何将人类的概念传递给机器？如何实现机器概念化？这就是微软正在做的事。

现负责这两个项目的微软亚洲研究院资深研究经理闫峻博士说：

“我们想做的，是让计算机能够更好地理解人类。理解是万事万物的基础，我们用计算机抓取过去这些不成文的开放领域的常识，能够帮助计算机更具象地了解这个世界。”

为了让计算机听懂人话，微软又推出了两项技术

“是一个大型的概念知识图谱系统。其包含的知识来自于数以亿计的网页和数年积累的搜索日志，可以为机器提供文本理解的常识性知识。”

这是微软官方给出的解释。你可以将它理解为一个标签化的维基百科，其核心知识库包含了超过 540 万条概念。

除了常规的“城市”、“音乐家”、“计算机”、“智能手机”外，这个知识图谱还包含了大量的长尾概念，也就是比较小众的概念，例如“抗帕金森治疗”、“名人婚纱设计师”、“基础的水彩技巧”等，而这些在普通数据库中几乎是找不到的。

此外，每条知识概念都包含一系列的实体或子概念，比如在“太阳系”的概念下，就会包括地球、火星、水星等。

为了让计算机听懂人话，微软又推出了两项技术

概念标签模型也是基于与知识图谱同样的理念而建立的，微软对其定义是：

“将文本词条实体映射到不同的语义概念，并根据实体文本内容标记上相应的概率标签。”

翻译成人话就是让计算机根据上下文理解词条的含义，比如我们说“苹果是甜的”，这里的“苹果”，显然是指水果而不是苹果公司。

现在概念标签模型所做的就是让计算机用不同的概念去描述一个词，并给出对应的概率，使得机器能够更好地理解文本。

以搜索引擎为例，我们大多数人在搜索时，只会输入少量关键词，而普通搜索引擎要做的就是将短的文本映射到大量的数据库中，再返回包含有关键词的搜索结果。计算机做的只是机械的匹配，谈不上“理解”。

为了让计算机听懂人话，微软又推出了两项技术

但概念标签模型能够“理解”你所输入的文本，并对已有的概念进行延展，从而找到其他相关性很大的信息。

微软举了一个很接地气的例子：在社交网络中，工程师在设置关键词屏蔽不当言论时，可能不是每个敏感词都能考虑到，比如屏蔽了“希特勒”、“纳粹”，却忽略了“法西斯”，但概念标签模型就能根据这些概念意识到“法西斯”也是一个需要屏蔽的词。

微软亚洲研究院表示，知识图谱和概念标签模型可以用于不同的文本处理，包括搜索引擎、自动问答系统、在线广告系统、推荐引擎、聊天机器人、以及人工智能系统等，目前已在微软多个产品和服务中得到应用。

目前微软上线了一个 Demo 版的知识图谱，不过目前暂不支持中文，对于词组的判断也不是很准确（经常会被拆分成两个独立的单词），而且，竟然没收录自家的 Surface Studio……

为了让计算机听懂人话，微软又推出了两项技术

未来的版本将会包含基于上下文的独立概念，以及对更多语种的支持。闫峻博士透露，微软将与国内的高校合作完成中文知识库的构建。

同时，闫峻博士表示接下来机器还会学习比喻、夸张和玩笑等高层次跨领域的抽象表达方法，最后实现从短文本的理解到长文本的理解，如理解两个完全不同的故事，但语义层面在表达同样的道理等，这些都是他们未来努力的方向。

在微软看来，在下一个时代，所有的交互都会通过对话完成，而自然语言是人机沟通的关键所在。因此，一直以来，微软都非常重视自然语言技术的研究，在美国总部、印度、北京都有相应的小组研究自然语言技术。

为了让计算机听懂人话，微软又推出了两项技术

自然语言组是微软亚洲研究院初创时成立的四大研究组之一，近年来，该部门频频发力，必应输入法、小冰、对对联、绝句生成系统都都是该部门的经典产品，最近还上线了粤语翻译系统。

在微软 Build2016 开发者大会上，微软 CEO 纳德拉首先提出了“对话即平台” （Conversations as a Platform，CaaP）的人工智能发展方向：

“我们最终将教会计算机以人类思维交流，而不是与机器人进行对抗，人工智能能够被人类所信赖。”

无论是今年对自然语言和人工智能技术公司 WandLabs 的收购，还是微软知识图谱、概念标签模型的推出，抑或是重点打造的语音助手 Cortana、小冰，都是“对话即平台”的战略产品。毕竟在错过移动互联网的浪潮后，微软绝不想在未来的人工智能战争中再吃败仗。

为了让计算机听懂人话，微软又推出了两项技术