编者按:本文系熊辉受邀在头条实验室所做演讲整理,由头条实验室授权 36 氪发布。头条实验室是今日头条设立的旨在推动人工智能技术研究的技术平台,致力于让算法更好地理解文字、图片、视频、环境场景和用户兴趣,从而促进人类信息与知识交流的效率和深度。
熊辉教授是计算机系出身的博士,是美国罗格斯商学院的终身教授。在这场演讲中,他对机器学习和数据挖掘技术,以及这些技术在商业领域的应用,作了深入浅出又非常生动的讲解。大数据时代到来,大数据如何转化为商业利益,请听熊辉教授解读。
一、 大数据分析究竟是什么?
今天主要是跟大家分享,我们在过去几年中研究工作的总结。
今年我们一共在 KDD 发布了 9 篇论文,题目非常的多样化,内容涵盖也非常广泛,包括房地产、通讯、市场营销、人力资源,还有一些好玩的方向,比如我们做了用大数据抓小偷,还有医药相关的,例如如何去做医疗流程的优化和诊断。
今天跟大家分享的也是一个非常好玩的方向。
我最喜欢用下面这张 slide 介绍什么叫做 “数据挖掘”,它能够很好的帮助大家,尤其是没有计算机基础的人来理解数据挖掘是做什么的:
数据挖掘其实很像是医生在诊断病人,当病人到达医院之后,医生先要收集病人的病症,将各项病症进行分析并产生关联,然后才能进行诊断。
所有的数据都不一样,例如做通讯的数据,从移动、联通、电信来的数据都不一样,因为大家的客户群不同,背后的数据特点不同。
病人也是一样,同样的病症,例如感冒,如果病人是老人、怀孕的妇女、小孩,他们呈现出来的病状都是不一样的。
数据分析就像是根据这些完全不一样的病症,收集并进行分析,然后进行诊断的过程。
二、为什么说大数据分析很难?
数据挖掘是一个很老的 topic,最早提出这个观点的是。当时叫 “海量数据”,也就是 “very large data”。
我经常用瞎子摸象来比喻数据分析。大象就对应海量数据,每一个数据分析师就是这个瞎子,我们只能够摸一部分大象的部位,就像数据分析师只能够拿到部分数据,但我们通过部分的数据来感受整体。
现在的 big data 和以前相比有什么区别呢?——现在的象不仅大,还有翅膀,还会飞。我们的很多应用需求造成我们的数据在不断的移动变化:
例如出租车的 GPS 数据,是一直在移动和变化中的。又例如金融行业,金融行业的高频数据交易每秒钟都会有上万个交易。在这种每天会产生上百万个交易的前提下,我们运用的交易策略产生和风险评估机制都要适应这种快速变化的海量数据时代。
这种情况会加剧我们数据分析的复杂度和难度,这是目前 big data 所带来的挑战——我们在单位时间内所需要处理的数据量远远超过我们的计算能力和算法能力。
三、最重要的不是算法好,而是算法快
大象在飞的时候,决定谁能够胜出的往往是谁的算法更快,而不是更好。目前市场上面临这么激烈的竞争,大家在竞争中,拼的往往是时间,是你的算法能够多快速地解决问题。
好的算法不是比别人好多少,而是比别人快多少。
我很喜欢用下面的这个公式来解释算法的本质:
我们经常在商业中做很多预测,a 是我们在长期的历史规律总结出来的规律,也是《易经》中的 “不变的理”,β是短期变化规律的一种耦合。好的预测是既能够把握长期不变的理,又能把握短期的变化规律,然后抓住他们的耦合。
就像一群鱼游过来,游得很快,水很浑浊,我们的算法比的就是谁能最快地观察到鱼群游过来,同时从鱼群中甄别出哪一条鱼是最有价值的,观察到之后马上捕获它。整个算法比拼的是这种快速运算,快速解决问题的能力。否则,差一个毫秒,别人就把鱼吃完了。
四、大数据商业化的难点在提出问题
我作为一个计算机背景出身的人,最理解计算机领域的人的想法。
从计算机学科毕业的人,往往会觉得自己掌握的是科学,会轻视问题的提炼,因为他觉得自己掌握了算法。
但往往问题的关键不在于问题的本身,而是问题的提炼。99% 的问题算法都能解决,但商业中真正的难点在于提炼出问题。
比如我现在如果给你一堆移动数据,非常多非常庞杂,你能从里面发现什么商业模式?提炼出来什么问题?
这不是大多数人可以做到的。但大多数计算机学科的人可以做到的是,如果我提炼了一个问题,希望你运用数据分析帮我找到解决途径,他们是很擅长的;但如果反向操作,我给你一组数据,希望你从中提炼出一些需要解决的问题,或者说好的商业模式,这样的能力就会有所欠缺。
而商学院出来的人又恰恰相反,往往擅长提炼问题,但缺乏解决问题的能力。这是学校的问题,学校往往培养专才,不培养通才。
西方的方法是擅长演绎,从上倒下推理出问题。
而我们现在常做的是从下往上,归纳法来解决问题。
未来的人才一定是两方面都擅长,既能用演绎法寻找出问题,又能用归纳法找出解决问题的办法。
这个世界上没有最好的算法,只有最合适的算法。
所以如果有人跟我说他有一个最好的算法,我就跟他说你 bullshit。
就像没有包治百病的药,只有针对不同症状,最合适的药。
我目前的团队就是由商学院的学生和计算机学科的学生构成,相互补充,形成优势互补。
我的团队有几个研究原则:
1、只做实际的问题;
2、所用的数据必须是一线的数据;
3、必须解决商业的问题。
下面会跟大家分享一些我们实际解决过的案例。
五、要把商业问题转化成数学问题
我们跟一个美国 500 强的公司合作,如何将商业的问题转换为数据分析问题。我花了很长时间了解他们要解决的商业问题是什么问题,到最后提炼为 “如何提升 ROI”。
他们的痛点是他们想提高转换率,是 to B 的生意,需要做商业分析,帮助提高转换率和缩短转换周期。
我们先看他们有什么数据,一类属于静态数据:他们所对接的客户属于哪个部门,他的职级是多少,他们公司的地点在哪里,公司规模有多大,属于什么行业等。我们要判断他是属于决策者还是仅仅是信息搜集者?他们公司的收入可以让他们接受我们多少钱的产品。
一类是动态信息,他在了解我们的官网信息中,进行了哪些动作?例如他了解过哪些产品,浏览过什么资料?是不是下载某项产品的白皮书,或者观看了什么视频?这一类的动态产品能够形成一个知识树,从中了解出他对我们的认知到达了哪一步。
我们想找到所有客户结果之间的共性,就是他在每一个节点中的结果,比如 “成功签约” 的客户所共有的结果是什么。
就像让 5 万人去爬山,有一部分人登顶了,有一部分没有。我们坐在直升机上看成功攀登到山顶的人,他们在每一个节点作出了什么选择。然后分析成功登顶的共性,就能分析出影响他们最终到达山顶的节点数据,然后从中摸索出规律。
对应到我们所说的例子,因为提升 ROI 的关键在于,我们必须 focus 在那些重要的,能最终成交的客户身上,所以我们通过分析,5 万个用户的节点数据,最终形成了购买的客户群,他们停留的节点,做的选择,大致就能归纳出一些规律。比如他如果到了一个节点,可能会往下做哪一步,我们可以对其保持重点关注。
这样,商业问题回到数学问题。从数学上的描述成为一个简单问题。
这整个步骤从前到后看,第一步是最难的,就是抽象出问题,其后的每一步都不是难点,都是优化函数的问题。
我们用一套市场的数据,投射到低维空间后整理之后,根据用户的动作,推荐下一个动作,还能够做营销方式的筛选。我们发现有一些营销方式根本不能导致用户进入购买流程,就不需要浪费钱去购买这些营销方式了。
而且我们还发现,如果客户是被动的被引入市场计划中,最终一般都会放弃。往往是主动获取信息,才能够完成购买。这样能够帮助他迅速分析谁是真正来购买产品的,谁只是来套取信息的。
六、数据挖掘在医疗领域的应用
介绍去年的另外一个例子,也是去年 KDD 发表的一篇文章。这个和刚才举例的市场营销是完全不同的,体现在特征上。
病人到医院之后要经过的流程:挂号-特征提取(验血等)-吃药-治疗-出院。我们聚焦的点是,通过信息的筛选,预测病人会不会得其它某些疾病。
我们做了什么事情,我们绘图。
每个病人都有一张图,上百万个病人,找他们共有的子图,然后形成一千张基准图。每一个病人,都是几个不同病症的组合。一千张基准图排列组合,可以还原一百万个病人的病症。
同样的一种疾病,但表现出来的病症不同。根据你的不同病症,用几个基准图来对应,吃与病症相关的药。
每个人给予完全个人化的药物配置。这是这个问题真正的关键。
这就是智能吃药。
此外,我们还跟美国 200 多所医院合作,制作传感器,就是病人携带的手环和医生的胸牌之间设置一个传感器。这样病人到了哪个位置,哪个楼层,哪个地址,和医疗设备之间发生了什么交互,这些交互都会被记录。
比如护士需要给病人量体温,那么传感器会在两人距离很近的一个距离范围内,记录下来。这样就能有效避免护士实际没有测量却乱填体温记录现象的发生。或者,比如医生出入传染病房之后应该洗手,但如果他没有和消毒液发生交互,这个传感器就可以发出警报。
七、大数据判断房商圈商业价值
去年,我们做了一个房地产评估。房地产评估其实做了很多年我们怎么作出不一样呢?
传统的方式考虑更多的是学区是否好,交通如何,静态指标怎么样,房型、开发商如何。
我们做的不同是,我们做动态的数据。如果这个地区过去 5 年里很高收入段的人在增加,这个地方的楼价就会涨,反之就会跌。
所以我们判断的标准是在这个楼盘有价值客户的活跃度有多高,我们根据谁在这里生活而判断房价的走势。
那么如何判断用户的价值呢?通过 POI 和地点轨迹,比如频繁进入高消费场所的人群,就判定为高价值用户;频繁出入低消费场所的人群,就判定为低价值用户。我们把商圈的概念进行量化,量化每一个商圈的完整性,帮助我们进一步提高评估的标准。
讲了这么多,我自己的经验是:
首先,了解商业的痛点。
其次,通常要先知道数据的体征。从技术本身而言,一定要考虑数据的特征。
每个病人来源不同,他的病症是不一样的。移动通讯的数据,三月和二月就是不一样。周末和非周末,春天和夏天,数据都是不同的。
给你很多数据,用什么数据很讲究。不是所有的数据都要用。
任何的数据,都要转为矩阵, 每一行每一列, 都很讲究。
再次,不要受其他数据干扰。我常和学生说,一开始,要把事情做大,就是要有发散性思维,但当真正开始后,要把事情做小,cut 掉所有不相关的数据。要做到 “大道至简”,不然会收到很大的干扰。
以上就是我的经验分享,谢谢大家。