大数据时代已经到来,就当大家也想按照大数据的思想重新定义我们的工作和生活的时候,忽的发现之前我们从不在乎的数据离我们那么遥远。
大数据分析之所以大,是因为其分析的数据是全量数据(或接近全量),其和以前的采样分析(样本)有着本质的区分。为此,我们为了可以进行分析,我们就需要获取全量的数据,这往往是很难得到的。
这是大家最主要使用的方法,包括:第三方的爬虫客户端、第三方的爬虫云平台、开源的爬虫以及自己使用Python编写的爬虫。
爬虫的方式获取数据尤其优势,就是爬取自己想要的内容,其针对性很强。但也有其劣势,即:用好爬虫是需要一定技术的,而且爬取的网站也在改变,需要随时更新爬虫规则。
现在数据交易市场慢慢的变多,比较有名的有:京东万象、聚合数据、数据堂和贵阳大数据等,虽然这几年数据市场做的慢慢的变好,但是其提供的数据还是比较有限,用户找到匹配自己需求数据的可能性还是比较低。但随着数据市场的成长,其仍将称为部分用户的数据来源。
那什么是搜索获取呢?其表面上的含义就是:搜索你想要的数据,然后直接下载搜索出来的结果。其搜索的范围有所有主流新闻网站、论坛网站、微信、新浪微博和电子报刊。
那么他是怎么样才能做到的呢?其实其实现方式也是很简单的,即:提供此服务的网站每天实时爬取所有主流数据源,并将其数据放入库中,你直接从这个库中进行搜索下载即可。
目前支持这样的形式的网站只有一家:第谷搜索,平台中的舆情搜索引擎能做到这点,你们可以尝试一下。相信在未来会有更多的网站提供这种获取数据的方式。到那时,大数据的时代才会真正的爆发。