日前,数据堂创始人兼CEO齐红威出席爱分析线期,并就“大数据变现”这一主题的观点,从关注哪类数据、如何采集数据及如何提供数据服务等方面,阐述了他对数据源的产业现状与趋势。
一、关注什么数据在数据分类上,齐红威把数据划分分成两个阶段,第一个阶段:按照行业划分数据,分成互联网金融、物流、教育、农业、化工等二十几个行业,数据堂主要关注人工智能、金融和精准营销领域的数据。第二个阶段:按照数据主体划分为三大类——第一类是人库,有关用户的数据。第二类是企库,有关企业的数据,第三是车库,有关车的数据,这是物联网一个分支。二、如何采集数据数据堂将数据来源划分成四个渠道:众包数据、行业数据、政府数据和互联网数据。众包数据主要是依靠众包平台、利用人力去获取;行业数据是企业做主要经营业务时的副产品,主要以投资或者合作的形式去拿到数据。政府数据分为地方政府数据和部委数据,地方政府的数据远没有整合得非常好,还没到可以对外大规模提供商业经济价值的时期。真正有价值的政府数据来自工商、税务、民政、公安等不到10家部委手中,这一些数据经过多年整合、汇聚,数据价值很高。互联网数据实际是比较封闭的,比前三类数据的开放程度和力度要差很多。互联网数据分为两类:公开和非公开。公开数据都可以拿到,但这一些数据价值不高,第一个原因是噪音很大,第二个原因是没有ID信息,只能做宏观、中观分析,现在大数据领域真正产生价值的数据变现在于微观。非公开数据掌握在BAT等大型互联网公司手里,他们的开放意愿甚至低于部委。三、如何对外提供服务数据对外服务前要深度处理,这中间有三个环节:第一个环节是数据分析,规避隐私问题;第二个环节是非结构化数据处理;第三个环节是数据融合,包括身份关联、时间及空间的融合。最后,对外提供的应该是数据高度融合后的分析结果,将数据增值,长效模式是把增值部分做得越贴合需求、反映业务需求的深层信息,主要以API接口形式提供服务。四、注重数据融合齐红威认为,初创公司最好以线下行业和政府数据作为切入点,不要从线上数据开始,网络公司有数据,但是能公开的量不大,价值度不够深。数据融合很重要,大数据发展到现在,很多团队都有机会获取优质数据,但问题是能不能把数据打通,这是个IDMAPPING的问题。在现场,齐红威还就大数据行业的趋势以及细分领域的发展分享了自己的观点:Q:从去年下半年开始,我们得知大数据行业渐渐冷下来,一方面公司融资进展放缓,另一方面大数据释放价值没有想象的大,怎么样看待大数据遇冷的现象?齐红威:我觉得有宏观的因素,又有微观的因素。宏观上,从15年股灾之后,整个大环境都不好,大家心理上会受特别大的影响;微观上,大数据疯狂投资期已经过了,现在到精挑细选的阶段了,大家会比较谨慎。第二个问题,大数据产业普遍没达到大家的预期,不论收入还是发展的速度。我自己觉得是大家心理预期过高了。因为大数据的产业是2B的。从2B的角度而言,不可能像2C一样发展那么快,它需要一个时间过程,需要适应这种慢一点的节奏,这就是客户服务市场的特点。Q:大数据技术本身能不能建立一个特别高的门槛?齐红威:我个人更愿意用阶段论来描述大数据行业的发展。假如满分是10分的线分。无论是数据的供给方,还是需求方,都处于特别简单、特别粗暴的阶段。说实话,简单粗暴的办法就把需求满足了。技术是工具、手段,不是目标,我们目标还是要解决需求。以石油产业为例,刚开始对石油的需求就是挖掘出来用于照明即可,不需要高端的提炼技术,但随着产业的发展就需要这些技术。大数据同样如此,需求会慢慢爆发出来,对技术的要求也会逐步增加。Q:技术与场景应用结合中会有大量定制化开发,未来大数据公司能否减少定制化开发、实现产品标准化?齐红威:就拿对大数据应用最深的金融行业而言,我们正真看到不同银行对产品需求是慢慢聚焦的。刚开始肯定是定制化的,因为这是新需求。随着需求慢慢聚焦,定制化部分会慢慢的变少,供应商与客户之间还处于互相教育的阶段。做行业解决方案的公司,最初试图从需求、产品、技术到数据源都自己做。如今,已经有很多做数据应用解决方案的企业,开始寻求一个数据方面的合作伙伴。因此随着产业的发展,大数据公司会分工,专注一个细致划分领域,这样定制化会减少。Q:怎么样看待医疗大数据的变现齐红威:我觉得需要做数据跨界,如果只是用医疗行业的数据,为医疗行业客户提供数据服务,基本没我们第三方的机会。医疗行业的数据是非常专业的,Know-How是我们第三方很难做到的。机会在于跨行业,拿医疗数据服务保险客户或者用保险行业数据服务医疗客户。