✔一家银行,根据美团点评数据,评估餐饮门店的销量以及客户体验,来分析预测其业务健康度,进而进行普惠业务。
✔一家数据公司,通过监控Tesla工厂里员工手机的信号多少,来预测特斯拉的量产情况,进而预测股价。
✔某能源公司通过一系列分析城市的工业用电数据,预测未来的工业产值,以此来优化能源调度和分配策略,调整定价。
✔某房地产公司通过一系列分析城市交通数据,包括公交线路、地铁站点、共享自行车停放点等,来预测房地产的发展,评估房地产项目的开发和投资。
✔投资公司通过监控淘宝、天猫、京东、唯品会等电子商务平台上每一个商品的价格与销售数量,准确获知这些电商公司的营收情况,以此来辅助投资决策。
以上案例分布在各行各业,但其实都与金融【另类数据】有关,可以很好地诠释【另类数据】的价值与场景。
传统金融数据包括股票/债券的交易数据、上市公司的年报/财报、金融机构的研报数据、政府的统计数据、银行用户的借贷数据等。
另类数据能够给大家提供更多关于公司、市场和经济的深层次信息。例如社会化媒体、卫星图像、互联网搜索记录和消费的人交易数据等。
可以看到,另类数据主要是网络、物联网数据。互联网的快速地发展,围绕人类和商业的行为几乎都可以数字化,积累沉淀大量的个人和商业过程数据。
物联网技术则让原本不被感知的物理世界成为可数据化的分析对象,逐步形成了大量的物理数据资产。
与传统金融数据相比,另类数据具备数据量大、实时性高、数据种类多、结构多样的特点,是对传统金融数据的重要补充,为投资者提供更广泛的交易思路、更多维的分析角度。
另类数据通常规模与传输量巨大,数据以极快的速度积累,涵盖了庞大的样本空间。
数据的获取和传输是实时或者接近实时,能够更迅速地反映市场变化和事件影响。
以上市公司营收信息为例,传统方式是从年报/中报中获得。年报集中于3-4月披露,中报集中于7-8月披露,具有时间延后性。
另类数据的形式结构很多样。有数值、图片、文本、音频、视频等多种数据类型,结构化的、半结构化的、非结构化的都有。尤其是非结构化的文本型数据近年来猛增,是重要的挖掘研究对象。
因为另类数据具有数据量大、实时性高、数据种类多、结构多样的特点,获取难度也比较高。
金融机构一般通过以下3种方式获取另类数据:向另类数据供应商直接购买、自建爬虫团队获取、使用数据采集软件获取。
其中使用数据采集软件成本效益最明显,前期只需投入很少的资金与人力,就可以快速开始探索另类数据。
八爪鱼是通用的网页数据爬取软件,拥有行业领先的数据采集能力,能够很好地解决另类数据体量大、实时性高、数据种类多、结构多样的采集痛点。
近年来,我们已服务了很多金融客户,帮他们快速获取网络上的各种另类数据,辅助投资决策。
股吧是东方财富网旗下股票社区,是公众股民快速获取有效信息和发表主观看法的重要平台,每天产生大量的讨论帖和跟帖评论。从这些讨论帖主题和跟帖评论中,可以窥见股民对某只股票/市场的投资情绪(看涨/看跌),进而预测股票在市场上买卖的金额的波动趋势。
我们就曾帮助某知名券商采集股吧3000+股票下实时更新的全部评论,为其研究股民投资情绪,进而预测股票在市场上买卖的金额的波动趋势提供充沛数据源。
① 制作1个股吧股票评论采集任务,利用任务复制功能,快速生成3000+任务,每个任务中存放不同的股票URL,实现快速上线。
② 使用云集群的定时+多节点高并发采集策略,在十几分钟内将每只股票更新的评论全部采集下来。
特别说明:除了示例中的股吧这样的平台外,雪球热帖、知乎回答等平台的讨论帖和评论都能够正常的使用八爪鱼进行采集。
案例2:第一时间采集1000+基金产品的净值,支持自身数据、投研、代销等业务发展。
基金投资是一种通过汇集众多投资者的资金,交给银行保管,由基金管理公司负责投资于股票和债券等证券,以实现保值增值目的的一种投资工具。
基金门户网站需要在交易日清算后第一时间获取各个基金产品的净值,从而支持自身数据(通过个人的网站/终端向投资者及时提供第一手数据)、投研(为个人或机构提供投顾服务,为其推荐高净值基金产品、优质基金经理等)、代销等业务发展。
八爪鱼就曾帮助某知名私募基金门户网站第一时间将1000+基金产品每日更新的净值采集下来,维系其相关业务正常运转。
① 使用八爪鱼,每个网站的采集任务配置方法是一致的,2-3天即可配置完1000+基金网站的采集规则。
② 使用云集群的定时+多节点高并发策略,在每个基金网站交易日清算更新基金净值后,第一时间将其采集下来。返回搜狐,查看更加多