Python商业数据分析:零售和电子商务案例详解(双色)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 什么是数据分析

数据分析是什么?数据分析有什么价值?如何开展数据分析?这些问题要从理解数据分析及其方法论开始。

2.1.1 理解数据分析

数据分析是将数据转换成“有用”信息的过程。“有用”两个字之所以打上引号,是因为信息具有指向性,同一个信息对不同的人会有不同的意义,比如某股票未来要涨停的信息,对于股民来讲是机会,是有用信息,但对于非股民来讲,这就没有意义,是无用信息。

数据分析所分析的资料,具有历史性,也就是说我们能分析的就是已经发生过的事实,通过历史事实预测未来会发生什么,这就是数据分析的核心任务。

将数据转换成有用信息中的转换过程是什么样的呢?如图2-1所示。

图2-1 将数据转换成信息的过程

数据之所以能转换成有用信息是基于参考系,这个参考系与我们在物理课上学的参照物有相似的含义。参考系让数据不再是单纯的数字,能赋予数据意义。一般商业分析的参考系包含同期的行业、过去的自己、同期的对手3个维度。

举个例子,笔者现在的体重是70kg,2016年是60kg,通过对比2016年的体重数据,会知道笔者一直在长肉。假如在笔者周围,大家的体重都在80kg以上,那么笔者减肥的目标可能是70kg,通过同期的对手,安慰了自己,感觉自己还不胖。但是健康医生告诉笔者,按笔者的身高比例,最佳的体重是67.5kg,因此笔者就知道不能自满了,要控制饮食。

没有参考系的数据是数据孤岛,无法知道某个数字意味着什么?无法从中获取有用信息。

2.1.2 数据分析的两个核心思维

要做好数据分析工作,需要培养两个思维,第一个是数据思维,第二个是商业思维。

数据思维比较简单,任何业务都需要从数据中寻找依据,而不是凭感觉,一切用数据说话。数据思维中有一个数据敏感度,数据敏感度是对数据的感知、计算、理解的能力,通过反复训练可以提高数据敏感度。

商业思维比较抽象,需要从数据的背后理解其商业价值,比如,图2-2所示的2019年中国的人口年龄结构数据,会发现未来的老年人越来越多,其背后的商业价值就是老年人市场。当然,未来的老年人跟现在的老年人不同,需求不断随着社会的发展在改变,企业只有抓住市场需求,才可以在未来至少30年间享受市场的红利。

图2-2 2019年中国人口年龄结构数据

数据思维和商业思维两者缺一不可,两者的碰撞,会发生“化学反应”,才可以从数据中获取有用信息。

2.1.3 数据分析的方法论

数据分析有法可循,在分析数据时灵活地使用分析方法可以快速有效地分析数据,从数据中获取信息。如表2-1所示,常用的数据分析方法有对比法、拆分法、排序法、分组法、交叉法、降维法、增维法、指标法和图形法,根据业务场景选择一种或一种以上的分析方法可以让分析更加高效。

表2-1 常用数据分析方法

1. 对比法

对比法是最基本的分析方法,也是数据分析的“先锋军”,分析师在开展分析时首先使用对比法,可以快速发现问题。进行商业分析时有3个必备的维度,分别是同期的行业、过去的自己、同期的对手,通过这3个维度的对比可以了解数据的意义,否则数据就是一座孤岛。

对比法分为横向和纵向两个方向。

横向对比是指跨维度的对比,用于分析不同事物的差异,比如在分析企业销售业绩时,将不同行业的企业销售业绩一起进行对比,这样可以知道某家企业在整个市场的地位。如中国的500强企业排行榜单,就是将不同行业的企业产值进行对比。

纵向对比是指在同一个维度用于不同阶段的对比,比如基于时间维度,将今天的销售业绩和昨天、上个星期同一天进行对比,可以知道今天的销售业绩的情况。

例2-1:小李负责网店运营,刚接手一家新网店,欲确定该店铺的主营品类,已知该店铺经营A、B、C、D共4个品类,各品类的销售数据如表2-2所示。

:将表2-2转变成柱状图,如图2-3所示,可以对比A、B、C、D这4个品类销售额的最大值。如果要做市场规模,则选择销售额高的品类;如果要便于生存,则选择销售额低的品类。

表2-2 数个品类的天花板

图2-3 各品类对比柱状图

2. 拆分法

拆分法是最常用的分析方法之一,在许多领域应用非常广泛,杜邦分析法就是拆分法的经典应用。拆分法是将某个问题拆解成若干个子问题,通过研究这些子问题从而找到问题的症结点,并解决问题。比如在研究销售业绩下降问题时,可以将销售业绩问题拆分成转化率、客单价和访客数3个子问题,通过分析这3个子问题从而解决销售业绩问题。

例2-2:某店铺的销售额大幅下降,运营人员欲找出销售额下降的原因,店铺核心数据如表2-3所示。

表2-3 店铺核心数据

:如图2-4所示,销售额下降的问题可拆分成3个子问题,分别是转化率、客单价和访客数的变化,通过表2-3结合对比法发现,主要是因为访客数的变化而引起了销售额大幅下降。可再进一步拆分访客数,访客数可以分为付费访客数和免费访客数,对问题的原因进一步剖析,直到找到问题的根源。

图2-4 问题拆解树状图

拆分法可以分为完全拆分法和重点拆分法。

完全拆分法,也被称为等额拆分法,是将父问题完全拆解,拆解出来的子问题的和或者集合(算法)可完全解释父问题。如销售额=访客数×转化率×客单价,等式两边完全相等。

重点拆分法,也被称为非等额拆分法,只拆分出问题的重点,子问题只解释了父问题的80%左右,如做好网店=点击率+转化率+退款率。的确,要做好一家网店只要做好点击率、转化率和退款率这3个指标就可以,但做网店运营不完全是这3个环节。有时面对一些复杂的问题,就需要采用重点拆分法,抓重要环节。

3. 排序法

排序法是基于某一个度量值的大小,将观测值递增或递减排列,每一次排列只能基于某一个度量值。排序法是从对比法中衍生的一种常用方法,百度搜索风云榜、淘宝排行榜等业内知名榜单就是重度采用排序法的产品,通过排序后的榜单,让用户快速获取目标的价值信息。

例2-3:某运营人员收集了数个品类的行业数据,如表2-4所示,通过排序法列出品类榜单。

表2-4 未排序的品类行业数据

:排序法只能基于某一个度量进行排序,表2-4中有两个度量,因此可以做出两个表单。

表2-5为基于交易指数的榜单,排名越靠前代表该品类的市场规模越大。

表2-5 基于交易指数的排序表

表2-6为基于在线产品数的榜单,排名越靠前代表该品类的市场竞争越大。

表2-6 基于产品数的排序表

4. 分组法

分组法来源于统计分析方法,是统计学中非常重要的分析方法,用于发现事物的特征。分组时可以按类型、结构、时间阶段等维度进行分组,观察分组后维度的数据特征,从特征中洞察信息。

例2-4:基于表2-7的信息,分析裤子和职业套装的差异。

表2-7 不同行业的销售额

:基于题目可以得知需要对父类目进行统计分组。分组结果如表2-8所示。

表2-8 分组统计后的行业数据

通过分组结果可知裤子的市场份额远大于职业套装。

5. 交叉法

交叉法是对比法和拆分法的结合,是将有一定关联的两个或以上的维度和度量值排列在统计表内进行对比分析,在小于或等于3个维度的情况下可以灵活使用图表进行展示。当维度大于3个时选用统计表展示,此时也称为多维分析法。比如在研究市场定价时,经常将产品特征和定价作为维度,销售额作为度量值进行分析。

例2-5:表2-9所示为不同性别的消费者在不同品类的消费金额数据,利用交叉法分析不同性别的差异。

表2-9 不同性别的消费者在不同品类的消费金额数据

:将表2-9转换成二维交叉表,如表2-10所示,可以直观地观察到男性和女性用户在消费偏好上的差异,男性更愿意在耳机上消费,女性则更愿意在零食上消费。

表2-10 性别和品类的交叉分析表

6. 降维法

降维法是在数据集字段过多时,分析干扰因素太多,通过找到并分析核心指标可以提高分析精度,或者通过主成分分析、因子分析等统计学方法将高维转变成低维。比如在分析店铺数据时,根据业务问题的核心提取主要的2~4个核心指标,进行分析。

例2-6:根据表2-11所示的字段评估店铺的综合情况。

表2-11 店铺的数据指标字段

:对指标进行分类,将店铺的评估分成产品运营能力、店铺获客能力和店铺服务能力。

反映店铺产品运营能力的指标如表2-12所示。

表2-12 反映店铺产品运营能力的指标

反映店铺获客能力的指标如表2-13所示。

表2-13 反映店铺获客能力的指标

反映店铺服务能力的指标如表2-14所示。

表2-14 反映店铺服务能力的指标

基于每个能力维度下的指标,综合评估出每个能力的分数。可以使用数据归一化[1]的方法或者熵值法[2]计算分数,达到综合评估的目的。

7. 增维法

增维法是在数据集的字段过少或信息量不足时,为了便于业务人员分析,通过计算衍生出更加直观的指标。比如在分析关键词时,将搜索人气除以商品数量得到一个新的指标,定义为关键词的竞争指数。

例2-7:如表2-15所示,计算关键词的竞争度,基于业务经验,竞争度=搜索人气×点击率×支付转化率÷在线商品数,得到的指标为正指标,数值越大越好。

表2-15 关键词的行业表现数据

8. 指标法

指标法是通过汇总值、平均值、标准差等一系列的统计指标研究、分析数据。指标法更适合用于多维数据。

例2-8:如表2-16所示,是淘宝搜索某关键词按人气排名前5的商品数据,通过指标法描述这个数据。

表2-16 某关键词按人气排名前5的商品数据

使用指标法描述数据后的结果,如表2-17所示。

表2-17 描述数据的相关度量

9. 图形法

图形法是通过柱状图、折线图、散点图等一系列的统计图形直观地研究、分析数据。图形法适合用于低维数据。

例2-9:表2-18是淘宝搜索某关键词按人气排名前220的商品数据,通过图形法分析这些售价的分布。

表2-18 某关键词按人气排名前220的商品数据

图2-5所示是基于售价分组后绘制的直方图,可以直观地观察各个价格区间包含商品的个数,商品售价分布主要集中在[118,588],[1058,1528]两个区间。

图2-5 价格区间分布图

图形法有画图空间、图形和图注3个要素。画图空间是图形的容器,图形呈现在画图空间之中,如二维空间、三维空间。图形是要表达的信息可视化的结果,如线型、柱状。图注是帮助读者理解图形的标注,如图2-6所示。图注包含:

• 图标题。

• 坐标轴。

• 坐标轴标题。

• 数据标签。

• 图例。

图2-6 图形的图注示例