数据采集的基本流程合集
日期:2024-04-04 04:52:15   来源:新闻动态

  上图所示为:水从蓄水池流入水泵进口管道,通过水泵做功后,水从 泵的出口流出,两台水泵的出水被汇集到母管后,经母管送往用水设

  数据采集前,采集数据人员应通过电话或企业报备财务软件信息等方式了解到企业大致 使用那种品牌财务软件。在了解到该情况后,采集人员应打开“数据采集软件 V6”,在“手 工搜索”工具中按照财务软件关键字查找是否有该财务软件的接口(图标) 。如果有接口, 则采集人员最好先看下需要采集的财务软件有几个接口(图标) ,是不是能够判断是那一个接 口,是否有把握进行采集;假如没有接口,则需要与奇星软件公司做联系,询问采集的方 法还有是不是可以制作针对性接口。 在确定好采集的信息后,采集人员还要准备采集的工具—存储有数据采集软件的光盘和 用来装载数据的 U 盘。这里要强调的是,采集数据尽量要使用光盘采集;同时用来装载数 据的 U 盘尽可能不要存储有其他数据,最好做到格式化处理,以防止 U 盘中存有病毒。

  这个过程是数据采集的关键过程,在该过程中,采集人需要注意的要点有很多,以下我就 必须要格外注意的要点一一进行描述:

  采集人员到达企业财务部门后,别急于使用采集软件采集数据。最好的做法是: 首先,通过询问或自己打开企业财务电脑的“开始—程序” ,了解企业所使用的财务软 件信息是否同已知信息相符,并且确认企业是否还使用其他的财务软件。 接下来,采集人能请企业的会计打开其财务软件。这里要注意的是在软件登陆时, 一定要请财务专员登陆我们要采集的那一套帐。 最后,在登陆财务软件主界面后,在其界面的上方

  数据挖掘有很多不同的实施方法,如果只是把数据拉到 Excel 表格中计算一下,那只是数据分析,不是数 据挖掘。本节主要讲解数据挖掘的基本规范流程。CRISP-DM 和 SEMMA 是两种常用的数据挖掘流程。

  从数据本身来考虑,数据挖掘常常要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖 掘实施过程、模式评估和知识表示 8 个步骤。

  步骤(1)信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,进而选择合适 的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓 库是至关重要的。

  步骤(2)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提 供全面的数据共享。

  步骤(3)数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业 运营数据挖掘时数据量往往非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接 近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。

  数据挖掘有很多不同的实施方法,如果只是把数据拉到 Excel 表格中计算一下,那只是数据分析,不是数 据挖掘。本节主要讲解数据挖掘的基本规范流程。CRISP-DM 和 SEMMA 是两种常用的数据挖掘流程。

  从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖 掘实施过程、模式评估和知识表示 8 个步骤。

  步骤(1)信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择正真适合的 信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库 是至关重要的。

  步骤(2)数据集成:把不同来源、格式 、特点性质的数据在逻辑上或物理上有机地集中,从而为公司可以提供 全面的数据共享。

  步骤(3)数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运 营数据挖掘时数据量往往非常大。数据规约技术能用来得到数据集的规约表示,它小得多,但仍然接近 于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。

  数据挖掘的基本流程 数据挖掘的流程大致如下: 1.问题定义在开始数据挖掘之前,开始也是重要的要 求就是熟悉背景知识,弄清用户的需求。缺少了背景知识, 就不能明确定义要解决的问题,就不能为挖掘准备好的数据, 也很难正确地解释得到的结果。要想充分的发挥数据挖掘的价 值,须对目标有一个清晰明确的定义,即决定到底想干什么。 2.建立数据挖掘库。 要进行数据挖掘须收集要挖掘的数据资源。一般建议把 要挖掘的数据都收集到一个数据库中,而不是采用原有的数 据库或数据仓库。这是因为大部分情况下需要修改要挖掘的 数据,而且还会遇到采用外部数据的情况;另外,数据挖掘 还要对数据来进行各种纷繁复杂的统计分析,而数据仓库可能 不支持这一些数据结构。 3.分析数据。 分析数据就是通常所进行的对数据深入调查的过程。从 数据集中找出规律和趋势,用聚类分析区分类别,终要达到 的目的是搞清楚多因素相互影响的、十分复杂的关系,发 现因素之间的相关性。 4.调整数据。 通过上述步骤的操作,对数据的状态和趋势有了进一步 的了解,这时要尽可能对问题解决的要求能进一步明确化、

  数据采集根据采集数据的类型可大致分为不同的方式, 主要方式有:传感器采集、爬虫、录入、导入、接口等。

  传感器监测数据:通过传感器,即现在应用比较广的 一个词:物联网。通过温湿度传感器、气体传感器、视频传 感器等外部硬件设备与系统来进行通信,将传感器监测到的 数据传至系统中进行采集使用。

  第二种是新闻资讯类互联网数据,能够最终靠编写网络 爬虫,设置好数据源后进行有目标性地爬取数据。

  第四种方式是针对已有的批量的结构化数据可以开发 导入工具将其导入系统中。

  异常数据、通讯中断不能下载 分析异常数据的原因,提出解决异常数据的措 施并上报项目经理,及时解决测风中的问题, 填写异常数据处理单,及时解决通讯问题。 按时进行检查上述措施的效果填写措施效果表格

  异常数据 由于仪器等原因丢失及 不可弥补数据,应用相关 的方法插补延长。

  异常数据 分析异常数据的原因,提出解决异常数 据的措施并上报项目经理,及时解决测 风中的问题。填写异常数据处理单

  并上报项目经理 归档数据, 每个月对异常数据来进行处理一次、填写数据处理单, 处理后的数据及正常数据放入相应文件夹进行归档,

  MR 数据有三个格式 MRO,MRS,MRE,目前解析主要包含两种:MRO,MRS。

  MRO 的解析主要分两种: 1、十五分钟级,小区级; 2、天级,邻区级。 采集流程如下图:

  MRS 的解析文件有多种数据,均以十五分钟数据为单位。 采集流程如下图:

  5G MRO 的解析文件有多种数据,均以十五分钟数据为单位。 采集流程如下图:

  PM 数据原始表格种类较多,考虑服务器性能、空间等因素,前期设计只取常用的 重点指标。主要是小区级性能指标,NB 数据,邻区指标等。

  PM 小区级的解析,各厂家字段参差不齐,此前集团需求指标为底,解析了性能表中小

  PM 小区级的解析,各厂家字段参差不齐,此前以 1.0.2 版本的集团需求指标为底,解析 了性能表中小区级的基础指标和干扰指标。

  MR 数据有三个格式 MRO,MRS,MRE,目前解析主要包含两种:MRO,MRS。

  MRO 的解析主要分两种: 1、十五分钟级,小区级; 2、天级,邻区级。 采集流程如下图:

  MRS 的解析文件有多种数据,均以十五分钟数据为单位。 采集流程如下图:

  5G MRO 的解析文件有多种数据,均以十五分钟数据为单位。 采集流程如下图:

  PM 数据原始表格种类较多,考虑服务器性能、空间等因素,前期设计只取常用的 重点指标。主要是小区级性能指标,NB 数据,邻区指标等。

  PM 小区级的解析,各厂家字段参差不齐,此前集团需求指标为底,解析了性能表中小

  PM 小区级的解析,各厂家字段参差不齐,此前以 1.0.2 版本的集团需求指标为底,解析 了性能表中小区级的基础指标和干扰指标。