文章查看
首页 > 其他> 统计文荟> 文章查看
  [字号      ]   [推荐]
抽样调查系统误差浅议
   2016-03-22

在抽样调查过程中,误差是影响数据质量最主要的因素之一。调查误差主要包括抽样误差(Sampling Error)和非抽样误差(Nonsampling Error)。抽样误差是由抽样调查的特性决定的,非抽样调查误差包括了抽样误差以外的其他所有调查误差,按照产生方式大致分为随机误差和系统误差。 

一、抽样调查误差概述
目前关于抽样调查误差的分类尚无统一规则,主要的分类有以下几种。 
1、将调查误差分为随机误差和非随机误差,将随机误差等同于抽样误差,非随机误差等同与系统误差。此种分类方法借鉴了测量与计量等学科关于误差的分类方法,但将抽样误差作为随机误差,不符合抽样调查的实际。在抽样调查工作中,抽样误差往往是由抽样方法决定的,是和总体的分布规律与抽样的方法有关的。例如,采用简单随机抽样和分层随机抽样,因为抽样方法不同,存在的抽样误差也明显不同,故不能简单的将此类误差视为随机误差。 
2、将调查误差分为抽样误差和非抽样误差。抽样误差是由于调查设计时有意识地只研究总体的一部分,由部分推断总体,从而产生的误差。当样本量增加时,抽样误差将减小。当样本数量等于总体时,抽样误差为零。抽样误差可以通过抽样方法的改进和抽样理论进行修正和消除。非抽样调查误差包括了抽样误差以外的其他所有调查误差。此种分类摆脱了一般意义上随机误差和系统误差的束缚,将抽样调查的误差明确到抽样误差和非抽样误差上。但此分类将非抽样误差等同于系统误差,未考虑到调查样本的随机性对误差的影响。例如,某调查采用等距抽样得到样本为A1A2A3A4……,在实际调查中A1缺失,只能从B1开始抽样,得到的样本为B1B2B3B4……,两个样本与总体之间必然存在误差,同一抽样方法抽出的样本A与样本B之间亦会存在误差,而此误差不属于抽样方法造成的抽样误差,只能属于非抽样误差。但此误差不属于系统误差,而是更接近于分类1中的随机误差,即在非抽样误差中存在随机误差。 
3、将调查误差分为抽样误差和非抽样误差,非抽样误差根据误差的性质可以分为随机误差和系统误差。抽样误差是由抽样调查本身产生的,可以通过抽样方法的改进和抽样理论进行修正和消除。非抽样调查误差包括了抽样误差以外的其他所有调查误差。主要包括随机误差和系统误差。其中“随机误差”主要是指同一抽样方法下不同样本造成的误差,随机误差的处理可以用概率统计的方法进行消除。系统误差是指“在重复性条件下,对同一被测量进行无限多次测量所得结果的平均值与被测量的真值之差”。系统误差的产生可能是刻意的,如故意选取调查对象;也可能是非刻意的,如对调查指标理解不准确造成数据整体偏高。但不论是刻意或非刻意,系统误差均呈现方向性偏差。本文采取此种分类方式。 
4、将调查误差分为抽样误差和非抽样误差,非抽样误差根据误差的性质可以分为登记误差和系统误差,其中登记误差为工作失误造成的误差,系统性误差是指主观意愿造成的误差。此种分类方式强调系统误差的主观故意性。但从实际看,系统误差不一定具有主观故意;主观故意也不一定造成系统误差;无主观故意也可能造成系统误差。例如,如表1-1的数据,甲为原始数据,乙采取“四舍五入”方法进行处理,具有主观故意,会造成随机误差,但是并未造成系统误差。丙采用进一取整,整体数据都偏大。丁采用忽略小数法,整体数据偏小。采用乙的方法,当数据样本量增大时,并不会造成误差增大,即不会造成系统误差。丙、丁的方法,误差会随着样本量的增加而不断增大,最终造成系统性的误差。 
                     表1-1 不同数据处理方式造成的数据误差 
 
A
B
C
D
E
F
G
H
I
合计
差值
124.56
251.58
209.28
190.32
189.24
188.52
86.79
266.46
254.76
1761.51
0
125
252
209
190
189
189
87
266
255
1762
0.49
125
252
210
191
190
199
87
267
255
1776
14.49
124
251
209
190
189
188
86
266
254
1757
-4.51
 
5、其他分类方法。其他分类方法的区别主要在针对非抽样误差的划分上。如龚鉴尧将非抽样误差分为设计误差、回答误差、调查登记误差、计算整理误差和意识误差5类;杨清将非抽样误差分为设计误差、估计量偏差、调查误差和编辑误差4类。 
二、抽样调查系统误差及其产生原因 
系统误差按照产生的来源可分为抽样框误差(Frame Error)、无回答误差(Nonresponse Error)和计量误差(Measurement Error)。按照抽样调查实施的过程可以分为设计误差、调查误差、回答误差和汇总误差。 
1、抽样框误差 
抽样框误差是指目标总体和抽样总体不一致时产生的误差,主要的误差类型有五个方面。 
一是抽样总体不能覆盖目标总体,也称作丢失目标总体单元。产生的主要原因是对目标总体估计不足,对变动的样本总体未能及时更新。例如在城乡一体化住户调查的抽样过程中,对新建的小区未能纳入,造成总体缺失。 
二是抽样样本超出目标总体,也称作样本包含非目标总体单元。例如在规模以下企业抽样调查过程中,原来确定的样本由于“升规”,成为规模以上企业,就会造成抽样的样本超出“规模以下企业”这个总体目标。 
三是复合联接造成的误差,指目标总体元素可能联接着多个抽样框单位。如在城乡一体化住户调查中,如果按照房屋抽样,可能出现两种误差,一类是2家或以上家庭共同租住某一房屋,抽中该房屋后就会出现一个样本框(房屋)对应2个以上的样本(家庭);另一类是某个家庭拥有多套房产,那么该家庭在按照房屋抽样的时候,被抽中的概率就远远高于其他家庭,造成样本对整体的代表性出现偏差。 
四是抽样框陈旧。例如,小微企业调查和个体工商户调查中的样本消失。城乡一体化住户调查过程中的房屋拆迁等等。 
五是辅助信息不准确。在实际抽样调查过程中,往往会使用辅助抽样框(如分层抽样、PPS抽样等)和不同的估计方法(如比率估计和回归估计等),如果辅助信息不完全或者不准确,就会影响到估计的准确度。如住户调查的大样本调查过程中,如果对大样本的收入调查不准确,就会造成在住户调查样本抽取过程中的分层信息误差,最终影响住户调查样本的代表性。 
以上几种抽样框误差产生的原因,主要是对样本总体估计不足,对样本框的选取不合适。特别是由于抽样调查的总体大都是动态的,不断发展变化的,造成抽样框误差的产生,而且以上几种误差往往同时存在、互相影响。 
2、无回答误差 
无回答误差是指不能从所有样本单位和问卷中的所有问题中获得有用的数据。金勇进将无回答误差描述为“调查单位被选入样本,却没有接受调查”或“接受调查,但对调查中的某些问题未给予回答”。 无回答误差按照产生的来源可以分为: 
一是无法找到调查对象。该类在CPI调查过程中较为常见。例如,商品季节性缺失造成价格无法获取(夏季无法采集到羽绒服的价格)。商品停止销售造成价格无法获取等等。在住户调查中,调查户举家外出在一个月以上,造成数据无法采集。 
二是调查对象拒绝接受调查。如住户调查的拒绝记账,小微企业调查的拒访,CPI调查的拒绝提供真实价格等。 
三是调查对象由于对调查指标含义不清而无法回答,或答案不完整而无法获取有用数据。 
四是调查对象主观拒绝回答某些调查指标。如住户调查中不愿意记录赌博收入等。 
此外还有被调查者由于忘记回答调查,造成调查超过时限;疏忽大意遗漏某调查项等等。无回答误差,有的属于客观性,有的则属于主观性;有的属于有意识,有的则属于无意识;有的属于调查人员方,有的则属于被调查者方。产生的原因也比较复杂,对于客观原因造成的,可以通过插值等技术性手段进行补充。对于主观原因造成的,可以通过法制保障严格控制减轻。如,对于拒绝接受调查的调查对象普及法律知识、宣讲依法上报统计资料的义务等使其接受调查;对于因担心隐私问题而拒绝回答某些调查指标的,可以明确告知并坚决履行对调查对象身份、资料等保密的义务,打消其心理负担。 
3、计量误差 
计量误差是指调查中所获得的数据与所欲调查项目的真值之间不一致产生的误差,主要分为三类。 
一是抽样方案设计阶段产生的误差。主要来自于不同措辞的不同表达,包括文字表达歧义、不简练等,或者问卷设计过长,导致调查者、被调查者产生疲劳而造成的数据失真的现象。 
二是调查阶段产生的误差。调查员会有意或者无意造成的数据失真,被访者也会有意或无意造成数据失真。
三是数据处理阶段工作上的差错所带来的误差,包括错误的编码,录入等。 
计量误差主要是工作性误差,需要在调查实施过程中严格遵守调查制度和统计调查基本规则,严禁使用具有导向性的提问方式,严禁出现编造、伪造、篡改数据等违反《统计法》的行为。
抽样调查中系统误差种类繁多,贯穿于整个抽样调查的全过程。从产生的原因来看,既有主观故意,又有客观限制。在充分研究系统误差规律并从方法上对系统误差进行事后修正外,必须准确认识抽样调查系统误差产生的原因,并深入研究控制对策,以提高统计调查数据质量。