|
摘 要:在统计信息系统理论指导下,从信息运动的角度,即通过统计信息的搜集、加工、开发和解释4个过程,讨论了统计认识过程中统计设计、数据的收集、数据处理和分析各个环节的思想实质以及应用中值得注意的问题.目的在于提高统计方法运用质量,防止数据挖掘中出现信息损失、信息失真现象,避免造成价值信息的遗漏或误用,从而影响应用者对再生信息的解释和分析质量.
关键词:统计信息系统;信息;数据分析;策略
1、原始信息的搜集
获取原始信息是统计信息运动的开始,是统计信息系统运行质量的前提保证,分析问题所需要的所有信息都来自原始信息,在统计工作中表现为统计资料的收集,是数据分析的基础.资料收集的渠道和方法很多,这里仅从信息搜集的视角,提出搜集信息的几点要求.
1.1 搜集信息的“全面性”要求
原始信息既然是统计信息的母体,那么必然要求其具有课题所需的所有信息.在课题设计时,应根据研究目的,明确需要哪些方面的信息,只要是课题需要的信息,尽量能全面搜集到.这里涉及到统计总体的确定,待测属性的明确,有效指标的选择以及抽样设计等等,要防止信息的遗漏,例如在问卷调查表的设计、回归分析中预测变量的选择中,遗漏重要信息是经常有的.所以,在搜集原始信息之前,对事物属性或特征的充分认识,课题设计的整体酝酿是至关重要的.
1.2 搜集信息的“具体性”要求
原始信息不仅要全面,而且要具体.统计数据是信息的基本载体,从收集资料的角度看,原始数据中的信息越具体,说明信息量越大;反之,笼统的信息,信息量小,开发的价值也是有限的.
最典型的例子在体育领域.在竞技体育中,数据信息往往具有多层次性,表面上看很简单的一个数据,其实内部很可能含有非常丰富的宝贵信息.例如,一个短跑运动员,在平时训练中偶然一次成绩有大幅度提高,其所含有的信息就远远超过这个数据(成绩)本身,说明当时的内外环境、运动员的身心素质条件、各个技术环节等合理化程度高,更重要的是说明了该运动员具备相应的实力或潜力,此时进一步了解当时运动员的状态、条件等详细信息是很有意义的.再比如,一场足球比赛结果是1比0,看似小胜,甚至有很大的偶然性,然而却有很多信息值得挖掘,现场统计数据提供了比较详细的信息,对于人们了解现场状况、欣赏体育比赛有较高价值,但对于专业人员作技术分析和战术分析,现场统计数据是远远不够的,需要更为详细的信息,可能要具体到每一次进攻和防守过程中的各个细节,在此基础上得到的统计数据才有更高的分析价值,此时才能看出“偶然中确有必然”.在当今的竞技体育中,人们有时可能夸大了比赛的偶然性,在无法解释某种现象时,将其归因于“运气”、“上帝之意”、“魔咒”等,其实,从科学的角度看,真正的原因还是掌握的信息不够具体.
1.3 谨防“伪信息”的影响
在原始数据中,由于各种各样的原因,可能会搀杂着一些不客观的信息,我们称之为伪信息,如果处理不当,伪信息的影响是很大的.在搜集原始信息过程中,应当尽量避免伪信息的出现,如果已经存在伪信息了,,就应该避开其干扰.下面是一个典型的例子(选自文献[1]).
例1 社会学家欲研究家庭状况对青少年犯罪的影响,在某地区进行抽样调查,该地区有未犯罪青少年10000名,有犯罪记录的青少年150名,现抽取未犯罪青少年100名,犯罪青少年75人,调查数据见表1:
表1 家庭状况与青少年犯罪状况
完整家庭 离异家庭 合计
犯罪 38
37 75
未犯罪 92
8 100
合计 130
45 175
表1中的数据显示,完整家庭的青少年犯罪率为29%,离异家庭青少年犯罪率为82%,平均犯罪率近43%,显然这是伪信息,原因出在抽样时扩大了犯罪青少年的数量. 要避免该伪信息的影响也不难,分别计算犯罪青少年和未犯罪青少年中完整家庭的比例,检验两个样本率之间是否差异显著即可.
值得一提的是,如果将表1视为2×2联表,采用X2检验,那么结果是很危险的,因为伪信息被使用了.
2 数据信息的加工
原始信息的搜集是以收集统计数据的形式来完成的,所有信息均蕴含在原始数据中,而且往往是多种信息混杂.作统计分析时,需要对原始信息进行加工处理,提取需要的信息,并以恰当的工具加以表示,这种工具就是统计量,属于原始信息的二级载体.提取信息的手段有两种:集中信息和分离信息.
2.1 集中信息法
集中信息法是指根据研究目的,滤掉干扰信息,将需要的信息集中起来,用统计量来集中反映.例如,样本平均数和标准差就是提取关于“样本整体水平”和“个体差异”两方面信息的最常用的统计量,人们经常使用的主成分分析法,也是针对多指标提取信息的重要方法,每个主成分各代表一部分信息.
2.2 分离信息法
分离信息法是将有关的信息分离开来,分别量化,以达到提取信息的目的.最典型的例子就是方差分析,方差分析的本质就是将总变异分解成可以追溯到其来源的几部分变异之和[2],实质上也就是把反映几个不同来源(因素)效应的信息分离开来,并以离差平方和来度量.例如,在双因子有交互效应方差分析中,我们关心的关于变异的所有信息都在总变异中,通过分解把反映因子1的效应、因子2的效应、交互效应以及随机因素造成的变异的信息分离开来,以方差量化[3],从而进行推断.另一个例子,多元分析中的协方差矩阵含有各变量的方差和变量之间相关关系两部分信息,如果我们想考虑各变量的方差,那么协方差矩阵的迹就反映了这部分信息;如果要消除各变量方差的影响,单纯考虑变量之间的关系,那么从协方差矩阵中将反映变量方差的信息分离出去,就得到相关系数矩阵[4],下面的式子说明了分离的办法.
ρ= ( V1/2)-1∑( V1/2)-1
∑= V1/2ρV1/2
其中∑为协方差阵,ρ为相关系数矩阵, V1/2为标准差矩阵.
2.3 值得注意的两个问题
2.3.1 信息损失 在提取信息的过程中,有时难免会有信息损失,在加工信息时应根据研究目的,分清价值信息和非价值信息,尽量减少价值信息的损失.看一个例子:
例2 体操比赛中,6位裁判员给运动员评分,去掉一个最高分,再去掉一个最低分,以剩下4个分数的平均数作为最后得分,这里去掉最高和最低两个分数的目的是过滤干扰信息,但同时也滤掉了一些重要信息.比如裁判员对所有运动员名次的判定.因为竞技体育比赛中评分的目的是给参赛选手排出最终名次,所以各裁判员对运动员名次的判定应该说是重要信息,尽管去掉的是两个极端分,但是裁判员个人对名次判定的信息等于全部损失了[5].况且,最高分或最低分未必就是最不合理的.当然,如果以6位裁判员评分的平均数作为运动员得分,也不够合理,因为有干扰信息.该问题目前尚未见到理想的解决方法.
2.3.2 信息失真 信息加工的前提是原始数据中含有所需要的信息,如果原始数据中不含所需要的信息,或者信息含量很低,那么强行提取的结果往往是信息失真.
例3 某研究者为建立某种评价指标体系,设计n项指标,请m位专家对初步拟出的指标就其重要程度打分,然后以专家给出的分数为原始数据,作主成分分析,建立评价模型.
该例中原始数据载有的信息是“各项指标的相对重要性”,而不是指标之间的相关,主成分和因子分析是处理指标之间相关信息的一种手段[6],所以例3中运用主成分分析是不恰当的.
3 统计信息的开发
信息的开发是指基于原始信息,运用一系列科学的统计方法揭示出蕴含在原始信息中的实质性信息、预测性信息以及决策支持性信息[7].数据分析中统计推断就属于统计信息的开发.
3.1 信息开发的实质
数据信息的加工为统计描述服务,同时也为统计推断(信息的开发)作准备,通过信息加工提取出来的统计信息,尽管在形式上与原始信息可能有很大的不同,但在内容上仍然属于原始信息的一部分.信息的开发是在信息加工的基础上,加上统计主体(有时也包括客体)的推理和分析,产生新的综合的统计信息(称之为再生信息).可以说,数据信息的加工是样本内的统计活动,而信息的开发是样本信息向外的扩展,如果说信息的加工是“物理变化”,那么信息的开发就是“化学变化”.
开发信息的主要工具仍然是统计量,作为开发工具的统计量是信息加工基础上的综合统计量,属于原始信息的三级载体,例如参数估计中的估计量,假设检验中的检验统计量.
从信息开发的角度看,假设检验中检验统计量的构造,实质上是对提取出来的各部分价值信息的比较运算,目前常见的比较运算有3类,即距离运算、相对比运算和相似性运算.例如,常见的检验统计量
(公式略)
∑(A- T)2T等均属于距离运算;S21S22、MS间MS内属于相对比运算;样本相关系数r =LxyLxxLyy属于相似性运算.
3.2 信息开发中值得注意的问题
信息的开发既然是以信息加工为基础,那么“提取哪些信息?怎样提取?”就是关键,值得注意的就是:根据研究目的,明确哪些是价值信息,防止遗漏了价值信息,而误用非价值信息.
3.2.1 遗漏价值信息 开发再生信息是以原始统计信息为基础的,统计数据中各部分信息有的可能是相互联系,互为补充的,应用中如果孤立地使用部分信息,而忽视另一部分重要的相关信息,可能会造成开发出的统计信息失真.例如,多元分析中,各指标之间往往具有相关性,这种相关信息对统计推断具有很大影响,如果针对单一指标逐个进行分析(多元问题一元化处理),就忽视了变量之间的相关信息,得出的结果自然是不可靠的.其实,多元分析与一元统计分析最本质的区别就在于多元分析考虑了变量之间的相关信息.
3.2.2 误用非价值信息
看一个例子:
一项中学生体育消费的调查研究,研究者按社会上可能的10种消费类型设计问卷,共收回200份有效问卷,经初步计算,得男女生各消费类型的平均消费额(见表2).为了比较男、女生总消费额是否有差异,研究者按表中计算,得d =-0.656,s =9.056,n =10,采用假设检验方法,得t =-0.229,结论:男女生总消费额差异不显著.
表2 男、女生体育消费额差异比较(元)
服装 报刊 器材 培训 比赛 音像 纪念品 资料 营养 捐款
男(x1) 65.69 9.05 21.82 5.47
4.29 3.80 6.05 2.66
36.60 7.17
女(x2) 83.25 7.79 17.35 15.75
3.58 6.29 6.59 1.67
19.3 27.57
(x1-x2) -17.56 1.26 4.47 -10.28 0.71
-2.49 -0.54 0.99 17.28
-0.40
该问题的处理显然是错误的.根据研究目的,需要推断的是男女生总消费额有无差异,所以男生和女生内部个人总消费额之间的差异是重要的价值信息,而在消费类型上的差异是非价值信息,该例的处理方法恰恰是误用了非价值信息,而丢掉了价值信息.
4、再生信息的解释
经过一系列的信息运动过程,开发出的再生信息需要反馈到客体,得到合理的解释,才具有使用价值.解释统计信息,有以下几个方面值得注意.
4.1 结合实际
从方法论角度看,信息是反映客观物质世界的一种思维形式,开发出来的统计信息必须结合具体问题,才具有实际的意义.况且,原始统计信息经过一系列的加工、处理,也有可能使再生信息失真,需要结合实际进行检验.
4.2 结合信息来源
再生信息是在原始信息的基础上开发的,所以再生信息只能针对信源作解释,尤其是运用范围,不能无限扩大.
4.3 注意基础信息
在信息开发过程中,有时可能使用了一些基础信息(默认或假定的).例如总体服从正态分布等,那么这些基础信息实际上已经成为再生信息的前提,因此在解释和反馈再生信息时必须明确这一点.
5、小 结
运用统计方法解决实际问题的过程实质上是统计信息系统的运行过程,数据分析的效果取决于统计信息系统内部各环节的运行质量.该系统在运行过程中,应始终遵循“客观、公正”的原则,无论是原始信息的搜集、加工和开发,还是再生信息的解释和反馈,都以不放大、不缩小价值信息量为原则,当然对各部分统计信息的准确识别是前提.
参考文献:
[1] 贾俊平,何晓群,金勇进.统计学[M].北京:中国人民出版社,2000,9.
[2] J.L.福尔克斯.统计思想[M].上海:上海翻译出版公司,1987.
[3] 魏登云.体育科学研究中数据变异的分类及处理[J].四川体育科学,2001.1.
[4] RICHARD A,JOHNSON, DEAN W. Wichern实用多元统计分析[M].陆璇译.北京:清华大学出版社,2001,4.
[5] 魏登云.主观评分误差的非参数处理方法[J].中国体育科技,2001,37(3):38-40.
[6] 魏登云.主成分与因子分析在体育综合评价中的应用检测[J].体育科学,2003,23(4):48-51.
[7] 王振龙.统计哲学研究[M].北京:中国统计出版社,2002.
[8] 陈希孺.概率论与数理统计[M].合肥:中国科学技术大学出版社, 1992,5.
[9] 周恒彤.对统计学学科体系建设的感悟[J].统计研究,2005,2:3-9.
首页[1]末页
|