在数据仓库的语境下,ETL基本上就是数据收集的代表,包括数据的提取(Extract)、转化(Transform)和加载(Load)。在转化的过程中,需求针对详细的业务场景对数据来进行管理,例如进行不合法数据监测与过滤、格局转化与数据规范化、数据替换、保证数据完整性等。
实时收集首要用在考虑流处理的业务场景,比如,用于记载数据源的实行的各种操作活动,比如网络监控的流量处理、金融运用的股票记账和 web 服务器记载的用户拜访行为。在流处理场景,数据收集会成为Kafka的顾客,就像一个塘坝一般将上游连绵不断的数据拦截住,然后依据业务场景做对应的处理(例如去重、去噪、中心核算等),之后再写入到对应的数据存储中。
Scribe是Facebook开发的数据(日志)收集系统。又被称为网页蜘蛛,网络机器人,是一种依照必定的规则,自动地抓取万维网信息的程序或许脚本,它支撑图片、音频、视频等文件或附件的收集。
除了网络中包括的内容之外,关于网络流量的收集能够使用DPI或DFI等带宽处理技能进行处理。
声明:本网站尊重并维护知识产权,依据《信息网络传达权维护法令》,若用户发布的著作侵犯了您的权力,请联络管理员: