华海涛:大数据的产生基于结构化数据
日期:2023-11-23 21:28:02   来源:云开平台/集团新闻

  教育频道教育频道专题首届大数据时代创新与媒介变革研讨会要闻

  央广网北京3月27日消息3月27日,由中央人民广播电台新媒体宣传中心、河北大学新闻传播学院、中国社会科学院世界传媒研究中心、中国科技新闻学会网络媒体专业委员会共同主办的“首届大数据时代创新与媒体变革研讨会”在京举行,本次研讨会以“时代创新媒介变革”为主题,围绕大数据时代全球网络文化发展的新趋势,探讨全球媒介创新发展未来。网络文化建设和管理部门、科研院校、国家核心学术期刊负责人、专家、学者共200人出席会议。

  味道网CEO华海涛在《大数据时代的中国青年媒体人成长论坛》中谈到为何会有“大数据”,他认为,是因为现在有很多每天产生出来的结构化数据都是有用的,存在在邮件附件里、数据库里面。它们之间有相互关系,但没办法用传统的关系数据库的办法来进行查询分析。之前在2000年前后,其实已经有这种概念,就是数据仓库和数据挖掘,非常接近于现在大家讲的大数据,所以说很多人就会在这个上面进行混淆。

  大数据不是一个特定的产品,是分布式的文件系统,基于这样的文件系统建模,然后才有机会在短时间内对大量的数据进行分析。

  从我个人的角度阐述一下我对大数据的看法。首先作为技术人员来讲我认为大数据首先要看本质,为什么出来这样一个名词,跟他比较接近的在2000年那个时候大家讲宽带,什么叫宽带,带宽到底多少是宽带,现在发展到了10兆瓦、20兆,刚开始的时候512K那个时候也叫宽带,所以这个事情是不准确的。大数据到底多大才算大,是不是一个GB的数据就不算大,其实我可以告诉大家本质上不是这个样子。

  为什么会有大数据这样一个名词。是因为就是说现在我们有很多每天产生出来的数据也不过结构化,当然里面也有一些结构化的数据,这些数据其实都是有用的,可能有些是在邮件、附件里面,有的是在数据库里面。他们之间又有相互关系没有办法用传统的关系数据库的方法进行查询分析。之前在2000年前后其实已经有这种概念,就是数据仓库和数据挖掘,非常接近于现在大家讲的大数据,所以说很多人就会在这个上面进行混淆。

  比如说像尿布跟啤酒的例子,好像是这样,这个例子我也是听了十几年了。大数据更多的可能是商家或者国际巨头用于一波又一波的创造新的IT增长点,然后可能很多人也不自觉的就卷到这个里面去了,所以我说我们普通民众是要认清楚这个问题。遇到了什么问题现在我们开始提这个大数据,刚开始讲了查询分析,这里面用传统的模型或者是工具研发解决。它不是一个特定的产品,是分布式的文件系统,基于这样一个文件系统上面我们可能主要是建模,做了这样一些事情,然后你才有可能去在一个相对短的时间内对大量的数据来进行分析。

  我先说一下大数据为什么现在我们很多人感觉像见不到它,见到部分到就对了,因为手里根本就没有大数据,大数据在谁的手里,实际上的意思就是数据生产者,我们从源头算起,每个人在文本框里输入一个词,那这个词就是精确的,服务器是可以记录下来的。那我们上亿的人甚至几十亿的人在搜索引擎里输入这个数据是非常精准的计算了像百度、谷歌这个数据当中去。包括语音、包括视频然后像电子商务其实最精准的是电子商务。

  我经常跟同事或者朋友在一起聊天的时候就说,其实如果是我们讲阿里、京东他们所掌握的中国的消费数据可能比国家统计局的还要准。因为什么呢?因为里面的每一笔订单是谁的,它精确到分,每一分都不会差的。它能够明显的分析出来这里面有男性用户、女性用户,在什么年龄段所以这个是很精确的,然后还有像微博、微信,微信这个事情最新的版本刚刚开放微信的搜索,之前也没有开放搜索,数据在哪里?先存着,现在存储很便宜,他可以搞到这样的数据放在那里,何时想分析就可以去分析。所以说这个事情我们老百姓可以感觉到跟我们好像没什么关系。但是多少有一点关系,但那个关系什么,我们大家可以去用,但是用的成本有多少这个不知道。

  每个人都想去建自己大数据的中心,或者在技术上用了大数据的方法。比如说我们去年上线的味道网是一个农产品电子商务网站,那这个电子商务网站跟其他的很多电子商务网站有共性的地方,那就是我也需要广告,刚才褚总讲的很好,叫整合了各种广告资源同时做时实的数据分析,是我们电子商务网站具体的一个应用点。然后还有一点我们自有数据的积累,积累到某些特定的程度比如想象一下每天如果能产生一万订单,这一万订单量每个人都会有一个评价,如果在评价上再有一个互评的话,这个数据量也是蛮吓人的,基本上意味着可能做一个普通的关系型数据库这样一个查询,一分钟或者10分钟,这样用户是等不了的。可能我们要牺牲掉一些精确性,然后用一些大数据的方法来把它搞定。

  另外我在从业过程中还遇到一个例子,就是说有一个是跟艺术品定价有关系的,当时设计了29个纬度包括拍卖行的价格,包括大家的评价、评论、以及以往所有人的评价,这么多东西通通弄到里面去,有不同的权重也并不全是线性的,把这么多东西都弄到里面去去做一个应用点在哪里?就是说拿它去做一个艺术品的基础价格的一个估价。因为现在大家都知道艺术品价格是很混乱的,卖多少钱都有,那到底让我们消费者了解这一个东西值多少钱,所以他们想了这个办法。

  但是这里面一个最大的问题是刚才上午也有嘉宾分享到了,这里面关于数据的准确性的问题。我们是不能相信的,这里面数据你不知道是哪一条不准确,所以我们大家都认为整体就是不准确的,这里面不能单独的数据清洗,那你凭什么清洗掉某一条数据?它也许是准的也许是不准的,这里面是应用上一个很大的问题。

  对精准数据来讲其实我觉得是现在一个最大的应用点。刚才我就从技术的角度说了一下大数据的这些事情。然后总结一下吧:现在我觉得是一个大数据的,我们赶上了这样一个时代确实是,未来可能会像王立新教授讲的非常精采,未来可能会达到那样一个理想的状态,一个完美的状态,就是说我们大家可以把中间的不对称造成的摩擦的成本降到最低,但是那个时代可能还比较遥远,目前我们能做到的事情就是认清形势,想清楚这个大数据这样一个概念或者一个技术对我们到底会有些什么样实际的应用,不要迷茫就好,谢谢大家!

  由中央人民广播电台新媒体宣传中心、河北大学新闻传播学院、中国社会科学院世界传媒研究中心、中国科技新闻学会网络媒体专业委员会共同主办的“首届大数据时代创新与媒体变革研讨会”在京举行,本次研讨会以“时代创新 媒介变革”为主题,围绕大数据时代全球网络文化发展的新趋势,探讨全球媒介创新发展未来。网络文化建设和管理部门、科研院校、国家核心学术期刊负责人、专家、学者共200人出席会议。

  3月27日,由中央人民广播电台新媒体宣传中心、河北大学新闻传播学院、中国社会科学院世界传媒研究中心、中国科技新闻学会网络媒体专业委员会共同主办的“首届大数据时代创新与媒体变革研讨会”在京举行,本次研讨会以“时代创新 媒介变革”为主题,围绕大数据时代全球网络文化发展的新趋势,探讨全球媒介创新发展未来。网络文化建设和管理部门、科研院校、国家核心学术期刊负责人、专家、学者共200人出席会议。

  本次研讨会根据不同议题,设置大数据时代的媒介产业、大数据时代的版权管理、大数据时代技术、大数据时代的中国青年媒体人成长等四个分论坛。