有哪些「神奇」的数据获取方式?
日期:2023-10-12 12:03:12   来源:新闻动态

  作为互联网营销策划,经常需要查询一些数据来完善方案逻辑,因此整理了一些数据网站,分享给大家。

  1. 互联网部分:移动端数据(微信、微博、APP),网站数据,综合数据,票房和电视收视率,视频指数,内容数据

  2. 传统数据部分:经济数据,企业数据,金融数据,汽车数据,建筑数据,医疗数据,服装数据,建筑数据

  只涉及数据查询不涉及报告下载,至于下载数据报告网站(看点赞情况再分享吧),用完这些网站,若还有什么数据查不到,私信我,再分享一些网站给你查(我就说说别当真/调皮)

  最近看了一下数据(感谢195,2385次收藏/流汗)别光收藏、感谢呀,顺便点个赞呗:越点赞越好运

  6.微指数_微信大数据领导者_微信文章_微信营销_微信公众账号大全_微信排行榜

  l APP数据(帮几家金融机构的APP,做过推广和优化,所以收藏了一些网站)

  3.应用雷达-iOS深度移动推广运营服务平台苹果APP排名搜索优化统计分析只查IOS

  二、网站权重和数据(网站SEO和SEM不太懂,但是有一家很牛的供应商,主要做中间商,整理方案)营销的时候,SEO和舆情更配

  9.阿里指数 - 社会化大数据分析平台(必须要开过淘宝店的账号,更可气的是只能查询单一行业)

  10.阿里指数_最权威专业的行业价格、供应、采购趋势变化分析(这个就能完美解决上面的问题)

  四、票房和电视收视率(额……为什么有这些网站,才不会告诉别人,是因为我喜欢看电影)

  二、企业数据(有时候接到一些Brief,大部分客户不靠谱,可能会问候一下他企业背景)

  2.【p2p网贷平台排名】最新网贷平台排名_网络借贷平台排名_网络贷款平台排名-网贷之家

  8.p2p排行榜,网络理财排行榜,第三方p2p平台排行榜 - 76676-最大的投资打理财产的产品点评平台

  2.中国互联网金融研究中心 中国互联网金融网 中国互联网金融联盟 中国电子商务研究中心

  1.案例报告列表_融资案例_并购案例_行业案例_企业案例_数据_分析—投资潮

  四、汽车数据(有一个汽车配件的客户,讲真,汽车客户真的比金融客户前期好搞,不过后期服务就呵呵了)

  七、服装数据(才不会告诉你,我是学国际经济与贸易出身的,后来才做了互联网营销策划,其中有一万只羊驼在奔跑)

  这些网站还不错,数据也算可以,其他的数据网站没有分享了。这只是网站,具体用法太多了,就没有分享单个教程。强调:网站用的好,真的能用出花来,比如百度指数+百度新闻=客户和竞品的传播节奏。具体网站的功能多试试,不要执着于网站,要多变通思路,希望能找到想要的数据(说服力)。

  学会写爬虫,整个互联网就是你的数据库,爬虫可以自动化地,大批量地帮你将网络上大量无规则数据爬取下来并归整。

  比如用爬虫爬取智联招聘上所有心仪的职位,并对职位描述做词频分析,从而了解该岗位的核心技能要求是什么。

  3. 爬取Mtime时光网上所有香港电影的海报,按时间线年到现在香港电影海报风格的变化

  初次接触爬虫,是为了学Python,作为一个数据分析师,不会一门开源的编程语言实在说不过去,作为一个数据收集癖,爬虫自然是当仁不让的学习Python的切入点,而我第一个爬取的对象,是糗事百科。

  当时还不会用BeautifulSoup,只是学了用urllib的简单循环爬取,爬取了热门笑线页并用txt保存。看到刷刷刷的几秒,我的文件夹多了一个写满几百个笑话的txt文件,我的表情是这样的

  爬完糗百,然后是豆瓣的电影排名,然后是爬搜房网的二手房信息,接着是学Scrapy,然后是爬JS,一步一步。

  你可以爬取每天微博上的信息,用Python的分词模块进行分词,每天统计微博上出现最多的词语,这样你可以比别人更早知道最近流行的网络用语,或者是一些舆论热点。

  你可以爬取网上或者QQ群里的各种表情包,这样跟别人斗图再也不怕弹药不足了。

  你还能爬取Mtime时光网上热门电影的影评,比如《美人鱼》有20000+条影评,进行分词后统计出每部电影的标签,然后把这些标签化的电影数据库卖给电影舆情公司,捞一笔。

  评论区有童鞋在问文科生学爬虫难么,以及怎么学的问题。我的回答是不难,Python就是给文科生学的编程语言(大神轻喷,我知道Python是易学难精)。Python的伪代码式的语句,可以让你像看文言文一样,只要稍加联想就能看懂,Python语句的简洁与高效,可以让你在刚学1天就做出一个爬虫的Demo,让你有神器在手,天下我有的感觉。

  首先是引入需要的模块,urllib和urllib2是连接网络请求数据用的,re是正则表达式用于提取特定的文本,pandas用于将数据用表格的形式规范地展现;

  接着定义一个空的队列,用于装入爬取的新闻标题,然后请求天涯的网页链接,将请求到的网页信息用utf-8解码,接着用正则表达式提取需要的新闻标题;

  如果用requests模块代替urllib还可以缩短到12行左右,是否很简洁?

  大数据时代,用数据做出理性分析显然更为有力。做数据分析前,能找到合适的的数据源是一件很重要的事情,获取数据的方式有很多种,不必局限。下面将从公开的数据集、爬虫、数据采集工具、付费API等等介绍。给大家推荐一些能够用得上的数据获取方式,后续也会不断补充、更新。

  UCI:经典的机器学习、数据挖掘数据集,包含分类、聚类、回归等问题下的多个数据集。很经典也比较古老,但依然活跃在科研学者的视线中。

  国家数据:数据来源中华人民共和国国家统计局,包含了我们国家的经济民生等多个角度的数据,并且在月度、季度、年度都有覆盖,全面又权威。

  CEIC:最完整的一套超过128个国家的经济数据,能够精确查找GDP、CPI、进口、出口、外资直接投资、零售、销售以及国际利率等深度数据。其中的“中国经济数据库”收编了300,000多条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。

  万得:简要介绍:被誉为中国的Bloomberg,在金融业有着全面的数据覆盖,金融数据的类目更新非常快,据说很受国内的商业分析者和投资人的亲睐。

  搜数网:已加载到搜数网站的统计资料达到7,874本,涵盖1,761,009张统计表格和364,580,479个统计数据,汇集了中国资讯行自92年以来收集的所有统计和调查数据,并提供多样化的搜索功能。

  中国统计信息网:国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济与社会持续健康发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等。

  亚马逊:来自亚马逊的跨科学云数据平台,包含化学、生物、经济等多个领域的数据集。

  figshare:研究成果共享平台,在这里能够找到来自世界的大牛们的研究成果分享,获取其中的研究数据。

  github:一个非常全面的数据获取渠道,包含各个细致划分领域的数据库资源,自然科学和社会科学的覆盖都很全面,适合做研究和数据分析的人员。

  上海市政务数据服务网:覆盖经济建设、文化科技、信用服务、交通出行等12个重点领域数据。

  Data.gov:美国政府开放数据,包含气候、教育、能源金融等各领域数据。

  这里给出了一些网站平台,我们大家可以使用爬虫爬取网站上的数据,某些网站上也给出获取数据的API接口,但需要付费。

  (1)新浪财经:免费提供接口,这篇博客教授了如何在新浪财经上获取获取历史和实时股票数据。

  如果你是小白,想通过爬虫获得有价值的数据,推荐我们的体系课程——Python爬虫:入门+进阶

  由于现在数据的需求很大,也催生了很多做数据交易的平台,当然,出去付费购买的数据,在这一些平台,也有很多免费的数据可以获取。

  优易数据:由国家信息中心发起,拥有国家级信息资源的数据平台,国内领先的数据交易平台。平台有B2B、B2C两种交易模式,包含政务、社会、社交、教育、消费、交通、能源、金融、健康等多个领域的数据资源。

  数据堂:专注于互联网综合数据交易,提供数据交易、处理和数据API服务,包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。

  百度指数:指数查询平台,能够准确的通过指数的变化查看某个主题在各个时间段受关注的情况,进行趋势变化分析、舆情预测有很好的指导作用。除了关注趋势之外,还有需求分析、人群画像等精准分析的工具,对于市场调查与研究来说具有非常好的参考意义。同样的另外两个搜索引擎搜狗、360也有类似的产品,都可当作参考。

  阿里指数:国内权威的商品交易分析工具,可以按地域、按行业查看商品搜索和交易数据,基于淘宝、天猫和1688平台的交易数据基本可以发现国内商品交易的概况,对于趋势变化分析、行业观察意义不小。

  友盟指数:友盟在移动网络应用数据统计和分析具有较为全面的统计和分析,对于研究移动端产品、做市场调查与研究、用户行为分析很有帮助。除了友盟指数,友盟的互联网报告同样是了解互联网趋势的优秀读物。

  爱奇艺指数:爱奇艺指数是专对于视频的播放行为、趋势的分析平台,对于互联网视频的播放有着全面的统计和分析,涉及到播放趋势、播放设备、用户画像、地域分布、等多个角度。由于爱奇艺庞大的用户基数,该指数基本能说明实际情况。

  微指数:微指数是新浪微博的数据分析工具,微指数通过关键词的热议度,以及行业/类别的平均影响力,来反映微博舆情或账号的发展走势。分为热词指数与影响力指数两大模块,此外,还能查看热议人群及各类账号的地域分布情况。

  网络采集器是通过软件的形式实现简单快捷地采集网络上分散的内容,具有非常好的内容收集作用,而且不需要技术成本,被很多用户作为初级的采集工具。

  造数:新一代智能云爬虫。爬虫工具中最快的,比其他同种类型的产品快9倍。拥有千万IP,可以轻松发起无数请求,数据保存在云端,安全方便、简单快捷。

  火车采集器:一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息。

  八爪鱼:简单实用的采集器,功能齐全,简单易操作,不用写规则。特有的云采集,关机也可以在云服务器上运行采集任务。

  数据获取的方式么,作为一个深度的数据挖掘控,数据爱好者,我要来回答一次了。

  第一是爬虫到现在,我最常用的获取数据的方式也绝大多数都是爬虫,优点是看到任何想抓取的数据,爬虫大多数都能做到。抓过的一些数据包括:100w知乎用户个人信息、420w某彩票信息、200w的交通信息、16w的酒店信息、50w的中文网url...(想到这么多,暂时写着么多)你以为爬取以上数据的爬虫真的很难吗?错错错!很简单(30行代码可以get all)这么简单,所见所得,难道你不想试试这种获取数据的方式吗?你可以用十天左右的时间完成学习,给出学习资料:如何学习Python爬虫[入门篇]? - 学习编程 - 知乎专栏

  第二是一些网站可以下载到的数据(1)、数据分析报告,数据报告,数据圈论坛(2)、海量数据免费下载(3)、Datasets Kaggle(4)、国云数据市场(5)、数据包下载列表(6)、微盛投资:沪深市场5分钟数据 wdz格式 转 txt、通达信,大智慧dad,飞狐dad,钱龙,同花顺,csv,dad,lc5,tdx,nmn,sql等(7)、国家地球系统科学数据共享平台全球变化研究出版数据直接下载(8)、中华人民共和国国家统计局统计数据(9)、分类: 地球物理相关资源(10)、国家数据(11)、产业数据_统计数据(12)、百度数据开放平台

  多接触一些做数据爬虫的朋友,很多热爱爬虫的朋友只是热爱爬虫爬数据但是不知道怎么分析,如果有机会大家都是愿意分享出来给朋友分析的。

  最后,再偷偷给大家伙儿一起来分享一个超级有用的学习资源,一本Python爬虫电子书和一本数数据分析电子书,这两本电子书已经帮助数十万位同学从0开始学会了数据分析和Python爬虫,如果你对这方面感兴趣的话,点击下方链接可以不要钱获取。

  因为研究数据,找过很多数据资源的网站,网上的推荐的也看过了不少。给大家推荐一些个人觉得使用价值比较高的数据网站。

  我对数据来源的观点是(主要指国内),如果能自己爬取的话算是一手资源,算是最真实的。但是大部分情况下爬取需要不少成本和精力,而且很多后台数据的话外人看不到的就不好爬取了。其次是官方数据,不只是政府数据,还有行业内有突出贡献的公司发布的数据,总的来说是比较有公信力的。然后是来自第三方的数据,这个就参差不齐了,有特别好的,也有很水的。要参考一下他们的数据来源、分析方法和在行业内的公信力,为了和企业合作出一些有偏向性的数据报告也是有的,所以得擦亮双眼。另外一些发表在学术刊物上的数据,可以去万方之类的平台找找,还是很有用的。

  还有市面上很多帮助分析程序、公众号的,这个属于自家内部分析了,在此不做过多列举。

  大数据123- 也是一站式数据网站,里面的网站相比大数据导航数量上少一些,但是有一些不一样的网站,能配合着看。另外还有些数据分析工具的链接。

  中国知网-中国经济与社会持续健康发展统计数据库- 可根据年鉴查询各产业高质量发展统计

  NUMBEO- 全世界城市指数,就是把世界各地的物价、收入、生活指数等信息聚到一起。很有趣的网站

  百度地图迁徙人气--全国人口的迁徙路书- 百度做的城市迁入迁出地图。里面还有城市通勤地图,不过展示的范围比较有限。