智能数据时代:企业大数据战略与实战
上QQ阅读APP看书,第一时间看更新

第1章 大数据的基本定义

当今社会,有效利用大数据可以让我们拥有压倒性的竞争优势。在本章中,我们将介绍什么是大数据,以及它的几个关键概念。

大数据究竟是什么?乍一看,这个术语相当模糊,像是一个包含海量信息的词语。尽管这样的描述符合我们心中对大数据这个概念的设想,但它并没有确切地告诉我们大数据是什么。

通常人们认为大数据就是超大的数据集,对于大数据的管理和分析已经超出了传统数据处理工具的能力。我们借助互联网搜寻关于大数据概念的一切线索,发现大数据爱好者所推广和分享的大数据概念可以精简如下:大数据界定了一种环境,在这种环境中数据集可以增长到很大的规模,以至于常规的信息技术不能有效地应对数据集规模的增长。换句话说,数据集已经增长到难以管理的程度,甚至难以从中获取价值。其中主要的困难就在于对数据的收集、存储、检索、共享、分析以及可视化。

大数据的概念有更多的内涵和外延,不仅包括数据集的规模,还包括数据利用的过程。大数据甚至已成为其他业务概念的同义词,如商务智能、分析和数据挖掘。

然而,大数据并不是一个新鲜事物。虽然大规模的数据集是在近两年被创造出来的,但是大数据在科学和医学领域早有根源,这些领域通过分析大规模数据来进行药物研发、物理建模以及其他研究。这就是大数据概念的来龙去脉。

1.1 大数据分析的出现

科学家对大数据集进行分析和研究,进而得出研究结论,在这种情况下数据越多、分析研究越多,得出的结果也就越好。研究人员通过整合相关数据、非结构化数据、历史数据、实时数据,进而产生我们现在所说的大数据。

在商业领域,大数据就意味着商机。根据IBM的报告,人类社会现在每天都能创造出2.5×1018字节的数据,从而使得世界上90%的数据都能在过往的两年间被创造出来。这些数据来自社会的方方面面:收集气象信息的传感器、社交网站的帖子、数码图片、在线视频传输、在线交易记录,以及手机的GPS信号等。它们都是大数据的催化剂,而且伴随着数据分析、算法和其他技术的进一步使用,所有这些数据的内在价值都能被发掘出来。

大数据在很多领域的重要作用和价值业已被充分证明。例如美国国家海洋气候管理局(NOAA)、美国国家航空航天管理局(NASA)以及美国的一些制药公司和能源企业等,这些组织自身积累了大量的数据,如今它们每天利用大数据技术从中提取价值。

美国国家海洋气候管理局运用大数据技术促进气候、生态系统、天气和商业贸易方面的研究,而美国国家航空航天管理局则将大数据用于航天和其他方面的研究。制药公司和能源企业则利用大数据实现更具体的研究,例如药物测试和地球物理分析。《纽约时报》利用大数据进行文本分析和网络信息挖掘,而华特迪士尼公司则将大数据与消费者的行为相关联,进一步理解消费者在其实体店、主题公园、门户网站的消费行为。

此外,大数据在现代商业领域还另有妙用:大型组织日渐面临着管理大量合法的结构化和非结构化数据的需求,这些数据涉及从数据库的交易信息到员工微博,从供应商的记录到监督部门的文件。近期的法庭案件倡导企业遵守法律程序,保存好所有文档、电子邮件信息以及其他电子通信设备的信息,如即时通信信息和互联网通信设备的信息,因为这些信息在企业面临诉讼时可以用于法庭的电子取证。

1.2 大数据如何发掘价值

提取出有价值的信息总是说起来容易,做起来难。从理念、技术到实践操作,任何一个环节都对我们发掘大数据的内在价值提出了挑战。

我们可以通过四个维度来思考大数据,这四个维度的内容如下:

1)体量(Volume)。大数据的数据规模很大。企业里处处充满数据,很容易积累起兆级乃至PB级的数据信息。

2)种类(Variety)。除了结构化数据,大数据还包含各种各样的非结构化数据,如文本、音频、视频、点击流量、日志文件等。

3)真实(Veracity)。从大数据整合而来的大量数据信息会存在一定的统计误差和对信息的曲解。信息的精确性对其价值至关重要。

4)速度(Velocity)。大数据对于时间是很敏感的,因为在企业中数据是时时流动的,必须使用大数据才能最大化它的商业价值,但是从中得出的结论也必须要适合于企业的历史数据才行。

4V从四个维度诠释了大数据的价值。然而,大数据的复杂性并不仅限于以上四个维度。在大数据驱动过程中,还存在其他的影响要素。而这一过程是大数据技术和分析的混合物,它们被用于定义数据资源的价值,而这种价值又可以转化成驱动商业进步的可操作元素。

这里提及的许多技术和概念并不新奇,而是在大数据的理念下“重新”出现的。最好的办法是划分成类别再进行分析,这些技术和概念包括以下内容。

传统的商务智能(BI)领域。它包括广泛的商业应用程序以及对数据进行收集、存储、分析和处理的技术。而且BI提供可操作的信息,它们使用基于事实的支持系统来做出更好的商务决策。BI通过对来自数据库、应用程序以及其他数据资源的数据进行深度分析而推动其运行。在一些领域中,BI能够提供业务运营的历史、当前和预测性视图。

数据挖掘领域。这是一个从不同角度分析数据并从中挖掘有用信息的过程。数据挖掘通常适用于静态数据或历史数据。它更关注于预测目的的建模和知识发现,而不是单纯的数据描述,其目的在于从大规模数据集中发现新模型。

统计应用程序。这些程序关注以统计原理为基础的算法,而且通常应用于与民意调查、人口普查相关的数据集以及其他的静态数据集。这些程序处理的数据理论上以样本观测值为主,用来进行评估、检测和预测分析。经验数据如调查和实验报告的数据是可分析信息的主要来源。

预测分析。预测分析是数据统计程序中的一类,它主要是对数据库中的信息和趋势进行分析,从而得到预测结论。在金融和科学领域中预测分析尤为重要,一旦有外部因素加入数据集中,就需要进行新的预测。预测分析的一个主要目的在于识别商业运作、市场和制造业中的风险与机遇。

数据建模。它是一种假设性的分析应用,其中嵌套着多重的“what-if”语句,通过算法被应用于多个数据集。理想条件下,建模信息的变动应基于对算法可用的信息,提出对数据集变化的影响的分析。数据建模与数据可视化紧密相依,数据可视化可以更直观地展示数据。

数据管理(Data Management)。数据管理是指利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用,包括元数据管理、数据结构化、数据安全等内容。

数据工程(Data Engineering)。数据工程是关于数据生产和数据使用的信息系统工程。数据工程建立在大数据背景之下,是对数据库的建设与管理的工程,其主要内容包括数据资产积累、数据运营过程、数据处理结果和应用、数据时间和咨询等。

数据科学(Data Science)是研究数据的科学。数据科学利用统计学知识和计算机技术对专业领域的对象实行大数据分析与挖掘以及其他方式的数据处理,以使组织获取更大的经济效益。数据科学是一个交叉学科,在思想方法上,数据科学研究继承了统计学的一些思想,例如在大量数据上做统计性的搜索、比较、聚类或分类等分析归纳,其结论是一种相关性,而并不一定是某种因果关系。虽然都依赖大量的计算,但数据科学与计算机模拟不同,它并非是基于一个已知的数学模型,而是用大量数据的相关性取代了因果关系以及严格的理论和模型,并基于这些相关性获得新的“知识”。

以上分析仅仅是大数据先进性和商业价值的一部分。这种价值的存在有赖于人们对竞争优势的永无止境的追求,并鼓励企业组织采用更大的数据存储库,容纳组织内部和外部的数据,以更好地进行趋势揭示、数据统计、行动决策。这有助于将大数据的概念、相关工具、平台和分析普及到技术专家和高管中。

1.3 大数据处理的关键——数据类型

体量大只是大数据概念的一部分。人们越来越认识到半结构化数据和非结构化数据也是大数据的重要部分,它们往往含有十分关键的商用信息,因而更加能够满足BI和商业操作的需要。而且我们应该认识到,非结构化的商业数据正在快速增长,并且在可预见的将来还会继续增长。

数据可以分为以下三类:结构化数据、半结构化数据和非结构化数据。结构化数据通常适用于传统的SQL语言数据库等,其中数据按照事先定义好的业务规则被写入表中。结构化数据通常被认为是最易处理的数据类型,因为它可以被定义和检索,更易于访问和过滤。

相比之下,非结构化数据通常没有相应的BI系统与之匹配。它不能被有效地写入表中,也无法被本地应用程序或数据库使用。非结构化数据的典型代表就是二进制图像文件的集合。

半结构化数据正好处于结构化数据和非结构化数据之间。半结构化数据不能按照数据库中的表和结构化关系进行管理。然而,它也不同于非结构化数据,半结构化数据拥有标签或其他标记方式,并以此划分数据属性,而且它还提供一套关于数据记录和域的层级结构,以此来定义数据。

1.4 大数据处理的微妙之处

处理不同类型数据的方式正趋于一致,因为进行数据处理的设备和应用程序都设置了指定的XML格式,以及特殊行业所专用的XML数据标准(如保险业的ACORD标准、健康医疗产业的HL7标准)。XML技术扩展了大数据分析和集成工具可以处理的数据类型,但这些技术的转换能力仍然受到数据复杂性和数量的限制,从而使得现有的数据类型转换工具和数据转换的需求不匹配。因而开启了新类型的通用型数据类型转换工具的大门,新的转换工具能够适用于各种数据类型的转换与融合,而且不用编写代码,同时还能适用于任何应用程序或者平台架构。

大数据概念的定义和相关分析工具的开发都还处于不断改进的状态,这些应用工具、技术、程序仍在不断演变。然而,这并不意味着那些要从大数据集中寻求价值的人应该等待。大数据对商业运作来说太重要了,不能采取等待和观望的方法。

真正窍门在于发现能处理多种类型数据的最优方式,同时还能保证满足数据分析过程的目标。最好的做法就是把硬件、软件和应用程序结合在一起形成一种可管理的程序,从而在有限时间内传递数据结果。

存储也是大数据的关键要素。数据必须存储在一个易于访问且易于维护的地方。这对大多数企业和组织而言需要很高的成本,因为基于网络的数据存储如SANA和NAS等的购买和管理都很昂贵。

数据存储技术已经发展成为典型数据中心常见的元素之一,因为数据存储技术已经成熟且开始商业化。然而,现代企业不断变化的需求仍对存储技术施加压力,把BI引入大数据的分析就是一个比较好的佐证。

大数据分析程序需要超出传统存储模式的存储能力。传统的存储技术如SANS、NAS等都无法处理兆级和千兆级的非结构化数据。因此,大数据分析程序的成功运行需要一种处理大量数据的新方式,以及一种新的数据存储平台理念。

1.5 大数据环境下的处理分析工具

1.Apache Hadoop

Apache Hadoop(包括基于它的各种包装,以下通称Hadoop)是一种开源工具,它提供了处理大数据的新平台。虽然Hadoop已经存在一段时间了,但是越来越多的企业才刚刚开始利用其功能。Hadoop平台旨在解决大量数据造成的问题,特别是包含复杂结构化数据和非结构化数据的混合数据,这些数据不适合放在表中。Hadoop在需要深度分析和计算量大(如集群和定位)的情况下运行良好。

对于寻求利用大数据的决策者而言,Hadoop解决了与大数据相关的最常见的问题:以高效的方式存储和访问大量数据。

Hadoop的内在设计允许它作为一个平台运行,它能够在大量的分布式机器上工作。考虑到这一点,很容易看出Hadoop如何提供额外的价值:网络管理员可以只购买大量的商用服务器,然后安装并在每个服务器上运行Hadoop软件。

Hadoop有助于节省与大规模数据集有关的管理成本。从操作上看,组织的数据都加载在Hadoop平台上,Hadoop软件把数据分解成可管理的部分,同时把数据扩展到各个服务器上。分布式存储的特性意味着无法在一个地方获取全部的数据。Hadoop还可以追踪数据的存储位置,而且能够通过创建多个副本来维护数据。这就强化了数据存储的弹性,因为即使某个服务器掉线或损坏,数据也可以从已知的好的副本自动复制。

Hadoop的优势还表现在处理数据方面。例如,传统的集中式数据库系统存在很多限制,它需要一个连接到服务器级系统的大磁盘驱动器和具有多个处理器的驱动器。在这种情况下,数据分析就会受限于磁盘性能和处理器的数量。

而在一个Hadoop集群中,每个服务器都可以利用Hadoop的能力在整个集群中传播工作和数据,从而参与数据的处理。换句话说,索引工作通过向集群中的每个服务器发送代码,各个处理器就会对自己的内容进行检索,然后结果会被统一反馈回来。这在Hadoop中称为分布式计算,也就是代码或操作被分布到所有处理器上,而最终的结果精简成单一的集合。

Hadoop在处理大规模数据集时表现良好,关键就在于它将数据分散到各个处理器上,而且它能并行运行所有处理器来处理复杂运算问题。

然而,冒险进入Hadoop的世界并不是一种“即插即用”的体验。为确保成功有一些先决条件:硬件要求和环境配置。首先要做的就是了解和定义分析过程。大多数首席信息官都对商务分析(BA)和BI的流程相当熟悉,并能将其与最常用的过程层(提取、转换和加载ETL组件)相联系,这对于构建BA或BI解决方案至关重要。大数据的分析和操作需要企业先选定所要处理的数据集,整合它们,然后进入ETL程序进行处理。在这里需要处理大量的数据,而且这些数据可能是结构化的、非结构化的,或者是来自于不同渠道的数据资源,如社交网站、数据日志、门户网站、移动通信设备和传感器等。

要真正实现Hadoop的价值,需要把操作程序和注意事项结合起来(例如一个容错的集群架构,选用最贴合数据的计算方法,实现对数据集的并行计算或批处理),以及需要一个能够支持数据从存储到分析的企业级平台。

我们应该明白,并非所有的企业都需要用到大数据分析。我们也应该认真思考一下Hadoop的能力和作用。Hadoop并不能够依靠自身来完成一切,企业在搭建Hadoop平台之前,还要考虑除了Hadoop之外需要什么组件。

例如,企业运行Hadoop平台需要以下组件:数据管理组件HDFS和HBase、程序框架组件MapReduce和OOZIE,开发组件Pig和Hive,以及开源Pentaho。在这个小型试点项目中并不需要其他太多的硬件设备。其中硬件必需品有:两台多核服务器、至少24GB的运行内存,以及一个2TB的磁盘。这就足以推动一个小型试点项目运行起来。

Hadoop的有效运行和管理需要一定的专业知识和经验,如果这方面准备不足的话,就需要信息技术管理人员与能够提供全面技术支持的服务供应商进行合作。这方面的专业知识对于项目安全尤为重要。Hadoop、HDFS、HBase组件也需要安全防护。换句话说,进入Hadoop程序的数据仍然需要保护,以免丢失。

整体来看,Hadoop平台是对企业大数据分析实力进行检测的关键。而在完成检测之后,如何解决平台上大量的服务器托管问题,也就成为大数据领域所要继续探索的内容了。

2.SmartDP

Hadoop是数据挖掘的重要工具,但是它的使用对象是一线的数据挖掘者。对非数据分析企业而言,想要利用Hadoop等开源软件构筑自身完整的数据分析体系比较复杂,一方面是因为相关数据的缺失,另一方面则是因为搭建完善的数据分析体系并不容易。此外由于聘请高级专家的成本过高,许多公司更乐意引进数据分析工具。诸如SmartDP之类具有“自助服务”能力的大数据分析软件的出现,为企业跨越数据鸿沟提供了一个新方式。

SmartDP是基于智能数据应用探索商业价值的平台,它具有数据管理、数据工程和数据科学的能力,这三大能力是对数据分析平台最基础也是最重要的要求。

在数据管理方面,SmartDP为企业提供了元数据管理、数据存储、数据治理、数据清洗、数据质量管理、人员权限管理与数据安全维护。数据的存储与管理是企业数据运用的基础,SmartDP不仅能够协助企业进行一方数据的管理,还能充当数据的连接器,打通数据平台和数据市场,拓展企业所需的第三方数据,为企业深度挖掘商业价值提供丰富的数据环境。

在数据工程方面,SmartDP提供了多方数据接入、数据整合、数据运营、应用接入、数据分析、数据可视化呈现、数据结论和执行建议。内外部的数据整合为企业数据价值挖掘提供了丰富的原材料,但原材料只有经过恰当的数据处理才能转化为价值。SmartDP的特点在于帮助用户快速实现各类操作,找到最佳的数据价值挖掘方式。

图1-1 以SmartDP为例的数据工程应用

数据科学是企业数据运用的重点与核心,SmartDP为没有数据管理平台和处理能力的用户提供了处理数据的平台与应用。SmartDP支持算法开发、算法接入、算法组合与算法自动调整(机器学习)。人工智能与开源算法的引进,为企业的数据应用与分析提供了多样性的选择与多水平的应用,满足不同企业、不同层次的需求。

从企业内部数据的产生到产品落地后产生的效果,SmartDP打通了企业数据的全链条,缩短了产业的价值链与决策链,许多之前必须通过外包才能解决的问题,现在可以利用内部数据分析平台完成决策,为企业提供直接可操作的结果。

从具体的产品形态看,目前SmartDP以DMP为基础,整合一方与三方数据,提供了如数据管家、用户管家、脉策、酷屏、人际地图等一系列产品应用。数据管家完成了数据的管理,从业务源头开始,对企业内外部的数据进行梳理与整合;脉策结合用户线上使用行为与线下活动轨迹,为房地产厂商提供最优的选址,帮助企业进行决策;酷屏能为企业提供简洁清晰的可视化图像,为用户提供直观展示;人际地图从用户的职、住、娱三个层面挖掘用户的行为轨迹,分析用户的消费水平与偏好,为企业营销提供最直接的决策推荐信息。而这些都只是SmartDP中的部分功能,外部算法与应用的接入意味着SmartDP能够实现更丰富的功能。

1.6 智能数据时代到来

智能数据就是有效融合了人工智能和人类智慧的数据,这样的数据才能持续产生商业价值。这个名词的出现揭示了数据、人和机器三者之间的有机联系。这种有机联系赋予数据更多价值,更赋予数据心智。现阶段的“数据”与以往的数据已经有很大不同。数据中包含的信息量越来越大、维度越来越多,从图像、声音等富媒体数据,逐渐过渡到人的动作、姿态、行为轨迹,再加上地理位置、天气、社会群体行为等,以往处理数据的思路已经难以适应“数据”本身发展的速度。一个融合人类智慧、人工智能以及海量非结构化数据的智能数据时代已经来临。因此,“发展多年的‘大数据’即将进入‘下半场’”。

智能数据时代最重要的三个要素是:数据、人工智能、人类智慧。这三者之间的关系又是什么?我们可以做个比喻。数据相当于什么?人的血液。人工智能相当于什么?人的心脏。心脏需要靠血液供给,但同时它还会根据人的心跳把血液再输回给人体,从此往复循环,形成一个正循环。人类智慧是什么?大脑,这是不可替代的。所有这一切构成了智能数据时代的三个要素。数据的积累,推动了人工智能的进步(数据量越大,训练出来的人工智能越强大)和人类智慧的积累(通过对数据的洞察和分析,人类经验得以增强,智慧得以积累),从而产生了更多的应用场景;应用场景的增加,导致数据在量级和维度上进一步变化,人工智能不一定能够处理所有的变化,所以需要人类智慧的介入,调整人工智能以适应新的数据处理方式,从而使人工智能得以进步,并且也进一步积累了人类智慧——这是一个正向的循环。数据、人工智能和人类智慧相互促进,迎来了新的智能数据时代。

缺乏人类智慧的持续介入,人工智能对数据的加成作用会随着数据的变化逐步弱化甚至失效;缺乏人工智能,人类无法处理如此海量的数据;缺乏数据,人工智能无法存在,人类智慧的积累也会放缓。比如通过人的有监督的训练,可以获得体现人姿态动作的手机传感器的训练数据集,这是体现人类智慧的数据。这些数据通过人工智能的算法分析,然后经过人类智慧的参数调整和验证,可以趋近反映人的真实动作和姿态,实现情景感知能力。具有情景感知能力的手机,可以提供给应用开发者更多的应用场景,比如运动健身、金融风控、物流管理、娱乐体验等,每个领域出现的新的用户体验,也会产生更多的数据,让人类智慧继续积累,让人工智能更加强大。又比如,原始数据进入SmartDP以后,需要经过数据架构师的人类智慧的分析和整理,通过人工智能的辅助,才能得到干净的或者建模的(比如图)数据。这些数据在使用的时候也必须结合人类智慧和人工智能。如果原始数据没有经过运营,垃圾进垃圾出,就不是智能数据。甚至数据还需要持续的运营,如果运营中断,有可能就慢慢地不智能了(过期了)。再比如在行业领域,我们通过咨询(人类智慧,积累了行业的经验)帮助客户梳理数据的脉络,采集必要的数据,再通过人工智能来满足业务需求,解决场景化的问题,同时又产生更多的数据。