由中国高科技产业化研究会主办,中国高科技产业化研究会信息化工作委员会协办,北京百科汇国际展览服务有限公司承办“2016中国(北京)国际大数据产业博览会暨高峰论坛”将于2016年9月12日-9月14日,在北京·中国国际展览中心举办。本届展览会将以“促进大数据时代变革、共赢新时代机遇和挑战”为主题,诚邀各单位、企业负责人及专业观众一起探讨大数据产业的未来和发展,共同展示大数据产业领域的最新成果、新技术,探讨行业动向、进行面对面的商业交流等。且此次会展将吸引世界各国的媒体前来报导。2016数博会组委会:
有这样一段话:社交网络,让我们慢慢的变多地从数据中观察到人类社会的复杂行为模式。社交网络,为大数据提供了信息汇集、分析的第一手资料。从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户“口味”的产品和服务,并结合客户的真实需求有明确的目的性地调整和优化自身,就是大数据的价值。 诸位同僚觉得大数据的核心价值是什么?
“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”——马云卸任演讲
首先例举一些大数据的典型应用,然后解释大数据的定义,最后总结大数据的价值。
空白处你会填上什么?欢迎各位讨论。但是目前可以预测的是,数据和内容作为互联网的核心,不论是传统行业还是新型行业,谁率先与互联网融合成功,能够从大数据的金矿中发现暗藏的规律,就能够抢占先机,成为技术改革的标志。
Mckinsey也列出了Open Data时代里七大行业潜在的经济价值,自上而下分别是教育,运输,消费品、电力、石油与天然气、医疗护理、消费金融。(感谢知友安阳提供的补充链接资料)
社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社会化媒体平台。
从理论上来看:所有产业都会从大数据的发展中受益。但由于数据缺乏以及从业人员本身的原因,第一、第二产业的发展速度相对于第三产业来说会迟缓一些。
工业(包括采掘业、制造业、自来水、电力、蒸汽、煤气)和建筑业定为第二产业。
第三产业即除第一、第二产业以外的向全社会提供各种各样劳务的服务性行业,主要是服务业。其中第三产业可具体分为两大部门:一是流通部门;二是服务部门。再细分又可分为四个层次:
第一层次,流通部门。包括交通运输行业、邮电通讯行业、物资供销和仓储行业。
第二层次,为生产和生活服务的部门。包括金融业、商业饮食业、保险业、地质普查业、房地产业、公用事业、技术服务业和生活服务修理业务;
第三层次,为提高科学文化水平和居民素质服务的部门。包括教育文化、广播电视事业、科学研究事业、卫生、体育和社会福利事业;
第四层次,为社会公共需要服务的部门。包括国家机关、党政机关、社会团体、以及军队和警察公安司法机关等。
我们能够准确的看出,由于某些客观原因,相对于第一产业和第二产业来说,第三产业凭借自身的优势,大多汇聚了当前最海量的数据及大批的科研中坚力量。接下来让我们看一些典型例子,当前新形势下与三大产业紧密关联的大数据应用。
孟山都是一家美国的跨国农业生物技术公司,其生产的旗舰产品抗农达,即年年春(Roundup)是全球知名的嘉磷塞除草剂,长期占据市场第一个位置。该公司目前也是基因改造(GE)种子的领先生产商,占据了多种农作物种子70%–100%的市场占有率,而在美国本土,更占有整个市场的90%。已经统治了生物工程种子业务超过十年。
孟山都首先发起“Green Data Revolution”运动,建立农业数据联盟(Open Ag Data Alliance)来统一数据标准,让农民不用懂“高科技”也能享受大数据的成果。典型的应用如农场设备制造商John Deere与DuPont Pioneer当前联合提供“决策服务(Decision Services)”,农民只需在驾驶室里拿出平板电脑,收集种子监视器传来的数据,然后将其上传给服务器,最终服务器返回化肥的配方到农场拖拉机上。
The Climate Corporation为农民提供Total Weather Insurance (TWI)——涵盖全年各季节的天气保险项目。利用公司特有的数据采集与分析平台,每天从250万个采集点获取天气数据,并结合大量的天气模拟、海量的植物根部构造和土质分析等信息对意外天气风险做出综合判断,然后向农民提供农作物保险。前不久从Google Ventures、Founders Fund等多家公司获得超过5000万美元的风险投资。 2013年被孟山都收购。
Solum目标是实现高效、精准的土壤抽样分析,以帮助种植者在正确的时间、正确的地点进行精确施肥。农户既能够最终靠公司开发的No Wait Nitrate系统在田间做多元化的分析即时获取数据;也可以把土壤样本寄给该公司的实验室做分析。2012年获得Andreessen Horowitz 领投的1700万美元投资后,已累计融资近2000万美元。
大数据对于农业的发展会带来什么影响?或具体到对农场经营会有什么启示或者带来什么样的变化?
2013年9月,工业和信息化部发布了《关于印发信息化和工业化深度融合专项行动计划(2013-2018年)》的通知。明确提出推动物联网在工业领域的集成创新和应用:
实施物联网发展专项,在重点行业组织开展试点示范,以传感器和传感器网络、RFID、工业大数据的应用为切入点,重点支持生产过程控制、生产环境检测、制造供应链跟踪、远程诊断管理等物联网应用,促进经济效益提升、安全生产和节能减排。
大数据的业务多是数据驱动型,具有数据量大、种类多、实时性高的特点。工业企业对数据的记录以往看来主要分为两种方法:传统的纸笔和Excel电子表格记录。这些操作起来看似简单的数据管理方式为企业生产及质量监控埋下了巨大的隐患,也让数据挖掘无从谈起。
随着信息化与工业化的融合发展,信息技术渗透到了工业企业产业链的各个环节。例如Sensor、RFID、Barcode、物联网等技术已经在企业中得到初步应用,工业大数据也开始逐渐得到积累。企业中生产线高速运转时机器所产生的数据量不亚于计算机数据,而且数据类型多是非结构化数据,对数据的实时性要求也更高。因此工业大数据所面临的问题和挑战很多,所以通用电气公司(General Electric)的副总裁兼全球技术总监William Ruh认为相对于工业大数据来说,工业互联网(Industrial Internet)才是当前急需的,因为大数据本身并没有让信息的提取更加智能,业务比数据本身更加重要。他举了一个核磁共振成像扫描的例子:
又如在工业中,压力、温度等数据的特点是需要语境才能理解的。燃气轮机排气装置上的温度读数与一台机车的内部温度是完全不同的。燃气轮机改善热敷需要使用非常复杂的算法运行模型。在笔记本电脑上,一个典型的查询要获得答案一般需要三个星期。在基于大数据的分布式系统上发布同样的查询执行一种计算只需要不到一秒钟。
德国汉德技术监督服务有限公司的前身是德国锅炉检验协会(简称TÜV)早在1869年,德国锅炉检验协会就承担了德国国内所有锅炉运行安全的检验工作,保证了锅炉生产的安全。渐渐的,德国锅炉检验协会取得了德国政府的授权,开展对其他产品的检验工作,从采矿,电力系统开始,到压力容器,机动车辆,医疗设备,环境保护,宇航工业,医疗产品等等,现在的德国汉德技术监督服务有限公司已经成为了许许多多产品的安全代号。主要体系认证包括企业质量管理体系,生产环境体系,生产碳排放方案等。TÜV当前从建筑绿色标准体系方面提出了对于大数据能源管理的探索,以微软新总部,蒂森克虏伯电梯总部为例,在整个项目实施中引入大数据能源管理,在建筑的设计规划阶段、施工阶段、运营阶段等多个阶段通过数据化的能源管理系统,实现建筑的低碳、绿色、智能。
Wonderware作为系统软件涉及的专业企业,对于大数据的计算和运用是从比较“IT”的角度出发的。Wonderware 的实时数据管理软件能够提供一个工厂所需要的从建立到报废的所有实时数据。目前已经退出移动版本,工程总监在手机上就能够随时随地监控设备的运行状况。目前全球超过三分之一的工厂应用Wonderware公司的软件解决方案。
健康与医疗:Fitbit® Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕带可以收集有关我们走路或者慢跑的数据,例如行走步数、卡路里消耗、睡眠时长等数据与健康记录来改善我们的健康状况;Early Detection of Patient Deterioration等公司正在开发床垫监测传感器,自动监测和记录心脏速率、呼吸速率、运动和睡眠活动。该传感器收集的数据以无线方式被发送到智能手机和平板电脑进行进一步分析;美国公共卫生协会(APHA: American Public Health Association)开发Flu Near You用来的症状,通过大数据分析生成报告显示用户所在地区的流感活动。
视频:互联网电视能够追踪你正在看的内容,看了多长时间,甚至能够识别多少人坐在电视机前,来确定这个频道的流行度。Netflix 美国国内规模最大的商业视频流供应商,收集的数据包括用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看等。甚至记录用户在哪视频的哪个时间点后退、快进或者暂停,乃至看到哪里直接将视频关掉等信息。典型的应用是Netflix公司利用数据说服BBC重新翻拍了电视连结剧《纸牌屋》,而且成功的挖掘出演员Kevin Spacey和导演David Fincher的支持者与原剧集粉丝的关联性,确定新剧拍摄的最佳人选。
交通:《车来了》通过分析公交车上GPS定位系统每天的位置和时间数据,结合时刻表预测出每一辆公交车的到站时间;WNYC开发的Transit Time NYC通过开源行程平台(Github:OpenTripPlanner和MTA )获取的数据将纽约市划分成2930个六边形,模拟出从每一个六边形中点到边缘的时间(地铁和步行,时间是上午九点),最终建模出4290985条虚拟线路。用户只需点击地图或者输入地址就能知道地铁到达每个位置的时间;实时交通数据采集商INRIX-Traffic的口号是(永不迟到!^^),通过记录每位用户在行驶过程中的实时数据例如行驶车速,所在位置等信息并进行数据汇总分析,而后计算出最佳线路,让用户能够避开拥堵。
电子商务:Decide 是一家预测商品价格并为消费者提出购买时间建议的创业公司,通过抓取亚马逊、百思买、新蛋及全球各大网站上数以十亿计的数据做多元化的分析,最终整合在一个页面中方便消费者对比查看,并且能够预测产品的价格趋势,帮助用户确定商品的最好购买时机。已经于2013年被 eBay收购。
政治:奥巴马在总统竞选中使用大数据分析来收集选民的数据,让他可以专注于对他最感兴趣的选民,谷歌执行董事长Eric Schmidt当时向奥巴马的大数据分析团队投资数百万美元并聚拢核心成员成立了Civis Analytics咨询公司,该公司将会将在奥巴马连任竞选中所获得的经验应用到商业和非营利行业中。(了解更多可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term)
金融:ZestFinance Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill创立金融数据分析服务提供商,使用机器学习算法和大数据为放款者提供承保模式,旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。公司使用分析模型对每位信贷申请人的上万条原始信息数据进行分析,只需几秒时间便可以得出超过十万个行为指标。目前违约率比行业平均水平低 60%左右。另外一个不得不提到的是风险管理先驱者FICO Predictive Analytics, Big Data Analytics and FICO Credit Scores,通过大数据分析为银行和信用卡发卡机构、保险、医疗保健、政府和零售行业提供服务。FICO 信用分计算的基本思想是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。FICO 已经为三分之二的世界 100 强银行提供服务,提高了客户忠诚度和盈利率、减少欺诈损失、管理信贷风险、满足监管与竞争要求并快速获取市场份额。想了解更多的企业可以看看附录中《经济学人》的文章《Big data: Crunching the numbers》。
电信:美国T-mobiles采用Informatica – The Data Integration Company平台开展大数据工作,通过集成数据综合分析客户流失的原因,根据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将流失率减半;韩国 SK telecom新成立一家公司SK Planet,通过大数据分析用户的使用行为,在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国AT&T 公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券。英国BT – Broadband公司发布了新的安全数据分析服务Assure Analytics—BT news releases,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策。
一般来说盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程,所以还有很多大家不知道的神秘应用潜伏在黑暗里,如同《三体》中的”黑暗森林法则“。
宇宙就是一座黑暗森林,每个文明都是带枪的猎人,像幽灵般潜行于林间,轻轻拨开挡路的树枝,竭力不让脚步发出一点儿声音,连呼吸都必须小心翼翼:他必须小心,因为林中到处都有与他一样潜行的猎人,如果他发现了别的生命,能做的只有一件事:开枪消灭之。在这片森林中,他人就是地狱,就是永恒的威胁,任何暴露自己存在的生命都将很快被消灭,这就是宇宙文明的图景,这就是对费米悖论的解释。
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的线PB)。
数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
处理速度快(Velocity)。大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。
不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。
大数据时代下的核心,预测分析已在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。
从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。 它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
了解了大数据的典型应用,理解了大数据的定义。这时相信在每个人的心中,关于大数据的价值都有了自己的答案。
2010年《Science》上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。
而大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。
举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种必然。
随着计算机的处理能力的日益强大,你能获得的数据量越大,你能挖掘到的价值就越多。
实验的不断反复、大数据的日渐积累让人类发现规律,预测未来不再是科幻电影里的读心术。
[1].什么是大数据时代的思维?《大数据时代》作者维克托迈尔舍恩伯格的演讲
[5].《信息化和工业化深层次地融合专项行动计划(2013-2018年)》印发