大数据分析:R基础及应用
上QQ阅读APP看书,第一时间看更新

2.1 数据采集和准备

数据采集,即数据获取,是指从传感器或其他待测设备中获取信息的过程http://baike.baidu.com/link?url=lnD8lmwKE4vGOneQhSBhNfFPNt7MfXl-sSyubVzcdYMN2Xsf9ylWBOLSLZt0YpVWInArgZunuSpSgv6G2bGrI_.。大数据采集包括对实时数据、非实时数据的采集,数据类型包括结构化、半结构化及非结构化数据。

大数据采集的方法有系统日志采集、数据库采集、网络数据采集等,采集的工具包括传感器、网络爬虫、移动基站及使用者自身产生的信息。

1.传感器

传感器是一种检测装置,它采集数据的过程为:首先传感器感受被测量的信息,然后将其按一定规律变换成为电信号或其他形式的信息并输出。传感器是大规模数据的来源,比如,监控大型强子对撞机或四发动机大型喷气式客机需要成千上万的传感器通道,从而产生数百TB的数据。

2.网络爬虫

网络爬虫是一种按照一定的规则,自动提取互联网网页信息的程序或脚本。互联网的数据形式多样,包括结构化的数据及图片、音频、视频等非结构化数据,对于这些海量数据,传统的获取方法已经不能满足需求,所以网络爬虫技术应运而生。网络爬虫可以定向地抓取用户所需的与某一特定主题相关的网页内容。

3.PON

日常通信过程中产生的海量信息。

4.使用者自身产生的信息

随着微信、微博及邮件等的普及,使得它们拥有庞大的用户群。在人们使用这些软件的同时会产生巨大的信息,这些信息也是海量数据的重要来源。

在进行数据挖掘与分析前需要对数据进行一定的处理,即数据的准备。数据的准备是数据分析整个过程中的一个重要阶段,可以为后续的挖掘分析提供高质量的数据,从而保证了分析结果的有效性。数据准备包括数据的导入、数据的抽取、转换和装载等。数据导入指的是将外部数据导入到数据库或数据仓库中,关键是针对数据库的存储方式及具体的应用场景定义数据合适的模式。数据的抽取(Extract)是指将所需数据从源数据中抽取出来;数据的转换(Transform)是将获取的源数据按照一定的业务需求转换成所需要的形式,包括对数据的清洗和加工等操作;数据的装载(Load)指的是将经过转换后的数据装载到目的数据数源中。ETL过程包括对数据空值的处理、数据格式的规范化处理、数据的替换及正确性验证的处理等,是数据挖掘分析的基础。