
二、统计数据的搜集
统计数据主要来源于两种渠道:一是来源于别人调查或实验的数据,称为第二手数据或间接数据;二是来源于直接的调查(取得社会数据)和科学实验(取得自然科学数据),称为第一手数据或直接数据。
(一)间接数据的搜集
二手数据主要是公开出版的或公开报道的数据。公开出版物有《中国统计年鉴》《中国统计摘要》《中国社会统计年鉴》《中国工业经济统计年鉴》《中国人口统计年鉴》《中国农村统计年鉴》以及各省(市、地区)的统计年鉴等。搜集二手数据还可以通过期刊、报纸、杂志、广播、电视等。在网络普及的今天,可以越来越多地通过网络搜集二手数据。在因特网上搜集二手数据通常可采用两种方式。
一种是直接进入网站查询数据。常用的国内网站见表2-1-1。
表2-1-1 常用的国内网站

例如,要通过国家统计局网站查询数据,操作如下:
第一步,连接互联网。
第二步,输入中华人民共和国国家统计局网址http://www.stats.gov.cn/,单击回车键,页面显示图2-1-1所示画面。

图2-1-1 国家统计局网站首页
第三步,单击“统计数据”栏目下的“数据查询”,页面显示图2-1-2所示画面。

图2-1-2 “国家数据”页面
第四步,根据需要,选择需要的数据类型并进入,即可查询相关数据。
第二种是通过搜索引擎搜集二手数据。目前,最常用的搜索网站是百度。
百度于2000年1月创立于北京中关村,是全球最大的中文搜索引擎。百度每天响应来自138个国家和地区超过数亿次的搜索请求。用户可以通过百度主页,在瞬间找到相关的搜索结果,这些结果来自于百度超过10亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。百度的开始界面见图2-1-3。

图2-1-3 百度网开始页面
例2-1 试查询重庆市2018年第一季度地区生产总值的数据,至少采取两种途径。
解:途径一,通过重庆统计信息网取得数据,过程如下:
第一步:进入重庆统计政府公众信息网(见图2-1-4)。

图2-1-4 重庆统计政府公众信息网开始界面
第二步:选择“统计数据”—“数据资料”—“进度数据”(见图2-1-5、图2-1-6)。

图2-1-5 “数据资料”界面

图2-1-6 “进度数据”界面
第三步:点击“2018年3月综合月度数据”,出现如图2-1-7所示界面。

图2-1-7 “2018年3月综合月度数据”界面
第四步:点击左边的Excel文件,出现如图2-1-8所示界面。

图2-1-8 “直接打开或下载”界面
第五步,选择直接打开或下载。本书选择下载到电脑,再打开该Excel文件,点击“季度:生产总值”工作表,如图2-1-9所示。

图2-1-9 “季度:生产总值”界面
得到重庆市2018年第一季度地区生产总值为4661.12亿元。
途径二,通过搜索网站百度网取得数据的过程如下:
进入百度网,在搜索项中输入“重庆市2018年第一季度地区生产总值”,点击“百度一下”,百度显示出相关信息(见图2-1-10)。

图2-1-10 搜索“重庆市2018年第一季度地区生产总值”的结果
多条信息均显示出重庆市2018年第一季度地区生产总值的数据,但有多个值,有些数据与通过第一种途径得到的值一致,有些不一致,需要进一步验证。
(二)直接数据的搜集
统计数据的直接来源主要有两个渠道:一是调查或观察,二是实验。统计调查是取得社会经济数据的主要来源。它主要包括抽样调查、普查、统计报表等调查方式。本书主要介绍通过抽样调查取得直接数据。
1.调查方案设计
调查方案主要包括调查目的、调查对象、调查内容、调查方式方法、数据处理与信息分析、报告形成、调查进度安排、经费预算等内容。
下面提供几个统计调查方案供实验者参考。
调查方案一:
住户收支与生活状况调查方案
(1)调查目的
为全面、准确、及时了解全国和各地区城乡居民收入、消费及其他生活状况,客观监测居民收入分配格局和不同收入层次居民的生活质量,更好地满足研究制定城乡统筹政策和民生政策的需要,为国民经济核算和居民消费价格指数权重制定提供基础数据,依照《中华人民共和国统计法》规定,开展住户收支与生活状况调查(以下简称住户调查)。
(2)调查对象
住户调查对象为中华人民共和国境内的住户,既包括城镇住户,也包括农村住户;既包括以家庭形式居住的住户,也包括以集体形式居住的住户。无论户口性质和户口登记地,中国公民均以住户为单位,在常住地参加本调查。
(3)调查组织
住户调查由两部分组成。一是分省住户调查,以省、自治区、直辖市(以下简称省)为总体进行抽样,主要目的是准确反映全国及各省居民收支水平、结构、增长速度,收入分配格局以及政策对居民生活状况的影响。二是分市县住户调查,以市、地、州、盟(以下简称市)及以县、区、县级市、旗(以下简称县)为总体进行抽样,主要目的是准确反映分市县居民收支水平和增长速度,满足政府对市县管理的需要。
国家统计局统一领导住户调查,负责制定调查方案,组织调查实施,监督调查过程,审核、处理、汇总调查数据,发布全国和分省城乡居民收入、消费和生活状况数据。
国家统计局各调查总队按照本方案规定,负责组织分省住户调查工作,牵头并会同各省级统计局组织分市县住户调查。分市县住户调查具体实施方案必须按照《国家统计局关于加强和改进分市县住户调查工作的通知》和本方案的要求,由各调查总队会同省级统计局制定后上报国家统计局审批。
各级统计调查部门应按照本方案规定,认真组织实施调查,确保调查数据质量。
(4)调查内容
分省住户调查内容主要包括居民现金和实物收支情况、住户成员及劳动力从业情况、居民家庭食品和能源消费情况、住房和耐用消费品拥有情况、家庭经营和生产投资情况、社区基本情况以及其他民生状况等。具体内容由本方案的记账项目、问卷项目和汇总指标共同规定。
分市县住户调查中的可支配收入和消费支出汇总指标的名称、分类标准、计算方法必须与本方案规定一致,其他记账项目、问卷项目、汇总指标在不影响收支汇总指标的情况下可适当简化,但必须与汇总指标体系的分类标准保持一致。
(5)样本抽选
样本抽选包括抽样方法设计、县级调查网点代表性评估、调查小区抽选以及摸底调查、调查住宅抽选、调查户落实等现场抽样工作。
分省住户调查的抽样方法由国家统计局制定。样本量按满足以下代表性需求的标准确定:在95% 的置信度下,分省居民及分省分城乡居民人均可支配收入、消费支出以及主要收入项和消费项的抽样误差控制在3% 以内(个别人口较少的省在5% 以内)。由此汇总生成的全国居民及全国分城乡居民人均可支配收入和消费支出抽样误差控制在1% 以内,主要收入项和消费项的抽样误差控制在3% 以内。国家统计局使用统一的抽样框,以省为总体,在对县级调查网点的代表性进行评估的基础上,采用分层、多阶段随机抽样方法抽选调查住宅,确定调查户。抽中调查小区五年内保持不变。抽中住宅每年轮换一半。现场抽样工作由各调查总队统一组织。调查小区的变动需经国家统计局批准;调查户的变动需经调查总队批准,并报国家统计局备案。
国家统计局组织各调查总队统一开展分市县住户调查样本的抽选工作,即按照国家规定的抽样框和抽样方法,在分省住户调查样本的基础上,补充抽选提高分市县代表性的扩充样本,共同组成分市县住户调查样本。分市县住户调查的样本规模由各调查总队会同省级统计局共同确定,分市县抽样实施方案报国家统计局批准后执行。分市县调查小区的变动需经调查总队批准;调查户的变动需报调查总队备案。
(6)数据采集
数据采集包括现场调查、数据录入和初步审核。
住户调查采用日记账和问卷调查相结合的方式采集基础数据。其中,居民现金收入与支出、实物收入与支出等内容主要使用记账方式采集。住户成员及劳动力从业情况、住房和耐用消费品拥有情况、家庭经营和生产投资情况、社区基本情况及其他民生状况等资料使用问卷调查方式采集。为了提高调查配合度,减轻调查负担、增强抗干扰能力、改进调查效率,国家统计局将启动建设住户调查应用系统,改进抽样方案并组织实施新周期调查网点轮换工作,在新周期住户调查样本中推广使用电子化数据采集方式。
住户调查数据采集工作,在已设立国家调查队的县及县级市,由县级国家调查队负责;在未设立国家调查队的县及县级市,由县级统计局(地方调查队)负责。在地级市的市辖区,分省样本由市级国家调查队负责,分市县调查中的扩充样本由市级统计局(地方调查队)负责,但已由国家调查队负责的,维持不变。
调查基础数据包括样本信息、调查户记账数据和问卷调查数据。由市县调查统计机构负责对记账数据进行编码,采用国家统计局编制下发的数据处理程序录入调查基础数据。有条件的地方可使用基于网络的数据采集平台,包括调查户网上记账、单机记账和调查员手持电子终端采集数据。市县调查统计机构对录入的数据进行初步审核。
(7)数据上报
分省调查样本的基础数据由各调查市县直接上报各调查总队,经调查总队审核、通过国家统计局内网邮箱上报国家统计局住户调查办公室。周六、日仍按期报送;遇到其他法定节假日,按国家统计局的相关规定上报。上报格式必须与国家统计局编制下发的数据处理程序规定的格式一致。
分市县调查中的扩充样本由调查市县同时上报调查总队和省级统计局。上报时间和方式由分市县住户调查实施方案规定。
有条件的地方可网上直报,多级共享。
(8)数据处理
数据处理包括数据审核、加权、汇总和评估。
分省住户调查样本和国家调查县所有样本的基础数据由各调查总队直接审核,汇总后提供给省级统计局。分市县调查中的其他扩充样本的基础数据由调查总队牵头,会同省级统计局审核。
全国、省、市、县各级汇总结果根据分户基础数据,采用加权汇总方式生成。各级汇总权数由国家统计局统一制定。国家统计局根据分省调查样本数据和相应权数汇总生成全国和分省数据。各调查总队根据分市县调查样本数据和相应权数汇总生成分市县数据。
国家统计局对分省调查结果进行审核评估,各调查总队牵头并会同省级统计局组织对分市县调查结果进行审核评估。
(9)数据发布
分省住户调查结果数据按年度和季度发布,各地不得自行增加发布频率。分市县住户调查结果数据可适当降低发布频率。季度主要发布居民收支数据,其余数据按年度发布。
全国和分省数据由国家统计局发布。分市数据由调查总队会同省级统计局发布。分县数据的发布方式由调查总队会同省级统计局确定。
按自上而下的顺序依次发布国家、省、市、县数据。发布分市县居民可支配收入和消费支出时,只发布合计数及其一级分类指标。
(10)数据质量控制
住户调查实行全过程质量控制。国家统计局建立全过程质量控制制度,规范方案设计,科学抽选样本,认真组织培训,严格流程管理,加强监督检查。每个季度随机抽取6000个调查户进行电话回访,对调查样本代表性进行评估和校准,对基础数据进行审核分析,对各地住户调查专业工作的各个环节进行量化考核。各级调查统计部门要加强调查基础工作,加强对调查过程各个环节的监督、检查和验收,及时、独立上报数据。
(11)其他
本方案实行全国统一的统计分类标准和编码,各级调查统计部门必须严格执行。
本方案自2016年12月1日开始执行。
本方案由国家统计局负责解释。
注:如果该分市县调查小区同时纳入贫困监测调查的国家汇总,则调查小区和调查户必须参照分省住户调查的办法进行样本管理。
调查方案二:
农村住户固定资产投资抽样调查方案
(1)调查目的
为了全面了解农村住户固定资产的投资状况,准确反映农户固定资产的总量、分布与结构,为各级政府制定农村政策提供基础数据,依照《中华人民共和国统计法》规定,特制定本调查方案。
(2)调查对象、调查范围
调查对象是调查村的住户。调查网点在住户收支与生活状况调查网点进行,农户投资从住户收支调查资料中取得,农户建房投资在住户收支调查小区所在的村调查所有建房户情况。
(3)固定资产价值统计标准
根据农村固定资产调查的现实情况,本方案中的农户房屋建筑物、机器设备、器具等固定资产价值统计标准为1000元以上,使用年限为两年及以上。
(4)调查对象的行业类别
略。
(5)调查内容
调查内容包括:农户固定资产原值、农户固定资产资产投资完成情况、农户建房情况以及农户固定资产投资的资金来源、投资构成及投资方向等。
(6)调查方法
调查人员到调查村直接访问,并从住户收支与生活状况调查中取得调查户的基础数据。
(7)填报要求
略。
(8)推算方法
略。
调查方案三:
重庆工商大学学分制改革试点调查方案
(1)调查对象
本次调查的对象分别是试行学分制的2007级本科学生、全校所有专任教师(不含双肩挑人员)、全校所有教学管理人员(包括教务处人员、学院院长、教学副院长、学院教务办人员、学生工作副书记或书记、2007级本科生辅导员)。
(2)调查方法
教学管理人员调查采取全面调查的方法,其余采取抽样调查的方法。
抽样调查采用分层等比例不重复系统抽样,使样本中的学生覆盖所有学院和所有专业,教师覆盖所有学院及不同职称,从而充分保证样本的代表性。
(3)学生及教师样本量
①初始样本总量
本方案对随机性的控制指标——学生,采用男性所占比例,教师采用31~40岁教师所占比例,按照方差最大原则可取Ph = 0.5,允许绝对误差学生控制在5% 范围内,教师控制在7% 范围内,置信度取95.45%(z = 2)。计算得学生样本总量为366人,抽样比约为8.52%;教师样本总量为161人,抽样比约为21.05%。
②学生样本分配
以班为分层变量,按班级人数的8.52% 分配样本。
③教师样本分配
总体上按总人数的21.05% 分配样本,但由于某些子层中总体单位数太少,按此比例分配后样本量为0,故对这些层均给予样本量1,这样使得教师总样本量增加3人,即总样本量调整为164人。
(4)学生及教师样本点抽取方法
①学生样本点抽取方法
在各班级中将学生按学号排序,计算抽样间隔k = 班级人数 /样本量,然后从前k个学生中随机抽取1名学生,后每隔k个学生抽取1名,直到抽满样本量为止。
②教师样本点抽取方法
在各学院内尽量采用随机抽样的方法抽取教师,也可选择具有代表性的教师进行调查。
(5)教学管理人员调查量
共计147人,其中教务处30人、院长17人、分管教学副院长17人、分管学生副书记或书记17人、教务办17人、2007级辅导员49人。
2.调查问卷设计
要设计一份好的问卷,必须考虑这样几个问题:它是否能提供必要的信息,是否考虑到应答者的情况,是否满足编辑、编码和数据处理的要求。
设计一份问卷包括一系列逻辑步骤,如图2-1-11所示。

图2-1-11 问卷设计步骤示意图
附录有两份调查问卷供实验者参考。
3.抽取样本
Excel提供了一组数据分析工具,称为“分析工具库”,在进行复杂的统计分析时,使用现成的数据分析工具,可以节约很多时间。只需为每一个分析工具提供必要的数据和参数,该工具就会使用适宜的统计或数学函数,在输出表格中显示相应的结果。要浏览已有的分析工具库,可以单击“工具”菜单中的“数据分析”命令,显示结果如图2-1-12。

图2-1-12 “数据分析”页面
在Excel的数据分析工具中有一个“抽样”工具,可以简便迅速地完成抽样工作。其基本操作步骤为:
第一步,画出数据表,输入总体各单位的编号。
第二步,单击“工具”菜单中的“数据分析”选项,再单击“抽样”选项,得到如下对话框(见图2-1-13)。

图2-1-13 “抽样”工具对话框
“抽样”对话框内各选项的含义如下:
输入区域:在此输入待分析数据区域的单元格范围。一般情况下Excel会自动根据当前单元格确定待分析数据区域。
标志:如果输入区域的第一行或第一列中包含标志项(变量名),则单击“标志”复选框(前面出现√号,表示已被选定);如果输入区域没有标志项(变量名),则不需要选择该复选框,Excel将在输出表中生成适宜的数据标志。
周期:如果输入区域中的数据是周期性的,可抽取每个周期中某一特定时段的数据作为样本。通常情况下,等距抽样(机械抽样)采用此种模式。
间隔:采用“周期”模式时,需将总体单位数除以样本单位数,求得取样的周期间隔,将答案取整填入“间隔”框中。
随机:当采用纯随机抽样、分类抽样、整群抽样和多阶段抽样时,采用此种模式。
样本数:采用“随机”模式时,将需要抽取的样本单位数填入“样本数”框中。
需要注意的是,无论是周期还是随机模式下,采取的抽样方法都是重复抽样。如果要采取不重复抽样,就需要抽中一个删掉一个,再抽第二个。
输出区域:在此框中可填写输出结果表左上角单元格地址,用于控制输出结果的存放位置。
新工作表:单击此选项,可在当前工作簿中插入新工作表,并由新工作表的A1单元格开始存放结果。如果需要给新工作表命名,则在右侧编辑框中键入名称。
新工作簿:单击此选项,可创建一新工作簿,并在新工作簿的新工作表中存放计算结果。
第三步,填写完“抽样”对话框之后,按“确定”按钮即可。
由于随机抽样时总体中的每个数据都可以被多次抽取,所以在样本中的数据一般都会有重复现象,解决此问题有待于程序的完善。可以使用“高级筛选”功能对所得数据进行筛选。选中样本数据列,依次执行“数据”→“筛选”→“高级筛选”。
例2-2 利用Excel,按照简单随机重复抽样的方法从100人中抽取20人。
解:第一步,画出数据表,输入总体各单位的编号。
可以直接输入1~100号,也可利用Excel“编辑”中“填充”“序列”的功能输入1~100号,还可以利用填充柄或函数功能输入1~100号。最后结果显示如图2-1-14所示。

图2-1-14 输入数据
第二步,单击“工具”菜单(见图2-1-15)。

图2-1-15 选择“工具”中的“数据分析”
第三步,单击“数据分析”选项(见图2-1-16)。

图2-1-16 从列表中选“抽样”
第四步,单击“抽样”选项(见图2-1-17),在“抽样”对话框的“输入区域”中输入A1:J10,在“随机”模式下的“样本数”框中输入20,在“输出区域”框中输入输出表左上角的单元格行列号(此单元格为空单元格,且其右下角为空),本例输入B12。

图2-1-17 填写“抽样”对话框
点击“确认”,得结果如图2-1-18所示。也可以选择“新工作表”或“新工作簿”作为放置抽样结果的位置。

图2-1-18 结果
可以看出,其中存在着重复数,可使用“筛选”功能对所得数据进行筛选。在样本数据列加入标题“抽样结果”,选中该标题及样本数据,依次执行“数据”→“筛选”→“高级筛选”,填写高级筛选对话框,如图2-1-19所示。

图2-1-19 填写“高级筛选”对话框
点击“确定”,得到筛选后的无重复样本,如图2-1-20所示。

图2-1-20 筛选后的结果
有读者会发现,这里的样本数只有19个,比要求的样本数少。故值得注意的是,由于事先不清楚会有多少个重复数值,需要根据经验适当调整在填写抽样框时输入的样本数,以使最终所得样本数不少于所需数量,再去掉多余的样本单位即可。
如果按上述方法再操作一次,又可给出不同的20个样本编号。