www.T1soft.com

 

首页 | 关于我们 | 软件产品与服务 | 解决方案 | 技术理论基础 | 成功案例和科研成果 | 动态和评述 | 联系我们 | 留言簿 

  

 

数据分析科学的过去、现在、未来

统计是数据科学

作者:谢邦昌  摘自:《统计科学研讨会》

 

  

  随着信息社会的来临、市场环境变迁的加速和不确定性的冲击,企业经营者纷纷面临市场饱和、产品加速淘汰、消费者嗜好善变及国外竞争者涌现等问题,单凭管理者的直觉反应和主观判断已无法因应决策上的需要;如何能化被动的适应为主动的评估趋势已成为现今的重要课题。数据分析科学(Data Scientific) 事业在市场趋向专业分工化的前提下,逐渐已成为管理决策者一项不可或缺的工具,而企业主们也渐渐能接受数据分析科学为外显成本的观念;然而,何谓数据分析科学?以下将针对数据分析科学做一介绍。  

  一、数据分析科学之目的

    数据分析科学之目的在于协助委托者(诸如科学家、工程师、公司管理者…等)探知『事物的真相』。统计学家在进行数据分析科学的同时,提供委托者有关以科学方法进行实验的逻辑观念。  

    Robert Hooke认为:统计学家是科学方法的监督者。他在1980年的文章《美国的统计学家》(The American  Statistician)中说道:(注一)

  一个富有经验的统计学家必定非常注重实验之逻辑性。化学家在进行实验时通常只关心化学的现象;生物学家进行实验时心中也只有生物学;当这些科学家们深信科学研究方法并使用科学研究方法的同时,他们往往自认 为深受科学研究方法洗礼而从未对其进行深入的思考。虽然某些哲学家曾对科学研究方法感兴趣,但鲜少有人真正踏入实验的领域。所以,统计学家承传了科学研究方法——因为他们所关心、所写、所做的皆是关于科学研究方法的事物,且从未有人对科学研究方法做如此深入的了解!

  Bertram Price (1982)也赞同Hooke的论调,他认为:统计学家终将承担所有研究发明在逻辑方面的重担。而统计学家必须对此一角色认同,且做好面对一堆看不出信息的原始数据的准备。

  二、数据分析科学的型态

  在Boen和Zahn(1982)一本有关数据分析科学的书中,将数据分析科学分为两种型态(type):

  直接咨询(Straight)

    有许多时候,委托人只想透过数据分析科学得到问题的最终答案,数据分析科学顾问必须针对委托人提出的问题找出解决的方案,然后付诸执行,以书面报告或口头报告的方式告知委托者分析的结果及发现。此种情况之下数据分析科学顾问独自负起找出问题答案的责任,和委托人间的交流甚少。

  间接咨询(Collaborative)

  委托人想藉由数学或统计的方法证实他(她)的研究结果,而数据分析科学顾问则提供证实的方法。此时数据分析科学顾问和委托人以互动的方式找出问题的答案,藉由此种交流,数据分析科学顾问及委托者本身皆可获得对方的专业知识及经验。

  虽然两种型态都包含在数据分析科学的范围内,但Hyams(1971)认为Collaborative型态较接近「意见咨询」(ideal consultation)。他说:(注二)

  意见咨询并非数据分析科学,它是一种委托人与数据分析科学顾问间以各别的所长共同寻求真相的过程。在此种会晤过程中,两者间存在有其共同之基本语言,………,在会晤间,委托者与数据分析科学顾问在思想上相互激荡,创造出更高的境界。

  两种数据分析科学型态的选择端看数据分析科学顾问与委托者间的「关系」(relationship)以及所待解决的问题种类。所谓「关系」是指咨询顾问和委托人各自的沟通态度(personal attitudes)及专业素养(professional abilities)。Hand和Everitt(1987)曾说:影响此二者的因素在于委托者对统计的了解,以及顾问对委托人所受训练的了解。

  不管委托者是否准备接受咨询顾问的建议,或是只想对他所知道的答案寻求确定;无论咨询顾问是一个专家、一个大学低年级生或是一个有庞大组织的团体;只要在主雇双方的想法得到平衡,便能将可能发生的问题减至最小。

  三、数据分析科学顾问所需具备之特质

  一个好的数据分析科学顾问在面对委托人时除了自身的统计素养外,还需具备有良好的人际技巧——说、写能力外,他(她)还必须有耐心、富有机智,尤其重要的是,他要能正确地了解委托人的问题所在,并协助解决。Hand和Everitt(1987)曾表示:(注三)

  一个数据分析科学顾问所可能面对的问题有千百种,除了可能的统计数据分析问题外,还有因委托者本身之沟通技巧及统计专业知识所造成的问题。和缺乏统计及数理方面专业知识的委托者进行沟通是一个难题。

  数据分析科学顾问必须体认到:委托人就是因为缺乏这方面的知识才需借重数据分析科学,所以仔细地了解「委托人之需求」(personal need)并协助委托人完成工作是身为数据分析科学顾问的工作及责任!Boen和Zahn(1982)在他们的书中曾谈到有关「委托人之需求」,他们说:(注四)

  委托人往往希望数据分析科学顾问不要太苛责他们已犯的错误。他们希望顾问们能了解:在研究开始之初,并没有统计专业人员的参与,且希望顾问能体谅他(她)们在统计方面并不专长。他们希望数据分析科学顾问能机智幽默些,并且在委托人不能完全了解顾问的解释时,能坦然接受。此外,当他们无法自己决定该取多少样本、该下何种假设或power应多大时,希望数据分析科学顾问能耐心地给予建议。委托人并不企求顾问完全认同他们的决定,他们只希望能将问题好好地解决。

  在决定以何种方法解决委托人的问题时,数据分析科学顾问必须对委托人有一充分的了解——什么样的方法是委托人所能掌控的?什么样的方法是委托人所能理解的?还有,什么方法是委托人愿意尝试的?Hand和Everitt(1987)曾说:「选择一个不能让委托人理解并接受的方法是没有意义的」。但这并不表示所有的解决方案都必须受限于委托人目前的态度及知识。有许多时候,委托人只求一个最终且明确的答案,而不十分了解其要求使用的方法。例如,委托人会说:「我想我的问题您应该有计算机软件包可解决吧!?」、「您能利用T-Test方法替我检验其显著性吗?」、「若想使检定结果显著,我应取多大的样本?」、…。此时,数据分析科学顾问应告知委托人正确之观念:「统计软件包若使用错误是没有意义的。」而「统计检定方法的使用及样本大小是要视问题而定的,且并必须遵循某些特定的假设。」。为使工作做得更好,数据分析科学顾问及委托人都必须充分了解数据的使用极限及扩展性、所使用之统计方法以及时间限制。

  Ott(1982)曾列举出12点数据分析科学顾问所须拥有的特质如下:

  1. 受过良好的统计理论及应用之训练

  2.能有效解决问题

  3.拥有良好的书写报告及与人沟通的技巧

  4.能接受真实世界的限制

  5.能使用计算机及相关的软件

  6.能得知统计结果的真实性

  7.熟读统计之相关文献

  8.拥有可爱的个性并能与人合作

  9.具有高度整合问题的能力

  10.能延伸或发展统计方法

  11.面对新问题或改变时能很快的适应

  12.有高度的工作效率

  Willian Hill(1982)更是建议数据分析科学顾问必须受多门学科的训练。例如,「统计与工程结合」、「统计与化学结合」、…等,如此便能更有效地掌控数据!

  四、数据分析科学的程序

  数据分析科学(Statistical consulting)可被定义为统计学家与其它专家合力为所研究的问题提出解决方案的一种合作行为,统计学的顾问一般可在政府机关、工业上、医学中心和学校工作,虽然工作的地点不大相同,但在进行数据分析科学的过程大致上是相似的。本文将依数据分析科学的程序、统计学顾问所扮演的角色、如何处理人际关系上和其它方面的咨询及何种训练课程对想要从事数据分析科学工作的学生最有帮助,这四个部份做简略性的探讨。

  一般将数据分析科学的程序分成五个阶段:(1)建立共识(establishing rapport);(2)确认研究的问题(identifying the research problem);(3)设定目标(setting goals);(4)确立责任分工(agreeing on a division of responsibility);(5)总结(summing-up stage)。

  (1)建立共识

  第一阶段的咨询工作通常是由闲聊开始,其目的是为了使统计顾问和顾客之间藉由轻松的话题,使顾客产生信任,消除彼此的戒心,对一般的顾客来说,由于本身对统计上的背景感到不足而产生恐惧,统计顾问要以关心和接受的态度来减轻顾客的不安,才能使工作的进行更加顺畅。

  (2)确认研究的问题

  第二阶段的早期,统计顾问要尽量提出问题以厘出研究的重点,例如:什么样的问题是顾客想要知道的,顾客现在手中的计划进行到那,等等的信息。并且统计顾问最好能与真正从事计划者进行沟通和做适当的记录,使计划的进行没有疏失。

  (3)设定目标

  此阶段是当顾客以提供了所有有关计划的数据且顾问也完全了解计划的进行后开始着手。设定的目标包括了要解决什么样的问题和要采取何种的分析方法,假如顾客是在收集数据前就向顾问提出咨询,则顾问须向顾客说明取样的策略,例如:随机性数据获取的有效性等问题,若顾客已收集好数据要做分析,则顾问须判断数据的控制条件是否适当等问题。

  (4)确立责任分工

  当计划的研究方向和采用方法已达成协议后,则顾问和顾客便要开始工作,互相配合以求得最正确的解答。另外在费用上、工作时限和工作分配等细节问题也能达成协议将可使工作的效率大大提高。

  (5)总结

  最后的阶段是将所有的计划结果做整合,提出书面报告或由顾问亲自解释问题的结果,并须完全解决顾客的疑虑。

   Statistical consulting:

  Problem          Real          Statistical       Mathematical

  as posed         problem       formulation        solution

 

       Interpretation of solution in words

       Understandable to client

 

  Figure 1.Statistical consulting as a five-step process

  五、统计顾问所扮演的角色

  顾客寻求统计顾问的帮助常有不同的期望,一般统计顾问常被期望的角色有三种:(1)协助者(helper);(2)领导者(leader);(3)合作者(collaborator),以下作一简单的介绍:

 

 

 

Statistician

 

 

active

passive

Client

Active

Statistician as Helper

Statistician as Collaborator

Passive

 

Statistician as Leader

 

  Figure 2.Three roles of a statistical consulting

 

  (1)协助者(helper)

  统计顾问扮演协助者的角色其主要工作是提供信息,回答顾客的问题及担任技术人员执行计划的分析部份,故对整个计划的涉入程度较不深,属于被动的角色,所以在担任此工作须注意不要造成错误的咨询。

  (2)领导者(leader)

  在此角色,统计顾问全权处理整个计划的进行,而不去参与分析的过程,容易造成许多错误,因为数据的取得可能牵涉不同领域的科学,而统计学家并无法全盘了解,所以分析上的一些小错误可能会发生。

  (3)合作者(collaborator)

  这是最理想的咨询方式,不像协助者和领导者只进行单向沟通,而是统计顾问和顾客间进行双方沟通,此对专业性的计划分析上更有帮助,且双方都能得到不少的好处,顾客可经由学习,并在下次遇到类似的问题能够自行处理,而统计顾问不仅成为计划的共同负责人,同时能获得许多不同领域科学的新知识。

 

  六、如何处理人际关系上和其它方面的咨询工作

  大家都知道要完成一次成功的数据分析科学需要统计上的技巧(statistical skills)和人际关系上的技巧(interpersonal skills),但在一般的训练课程上对人际关系方面咨询技巧却较少注意到,现在就简单介绍关于人际关系方面的咨询技巧。

  (1)协商出一个想要扮演的咨询角色(Negotiating for a desired consulting role)

  顾客通常对统计学家有不同的角色认定,而统计学家可以接受此角色的认定或者是经由协商来达成统计学家想要扮演的角色,此角色的认定将对咨询工作的进行有很大的帮助,其它最重要的协商原则是试着去了解顾客所关心的事项,然后给予适当的处理,例如:顾客可能担心因本身统计上知识的不足而变成受制于统计顾问,则此情况统计顾问可扮演协助者的角色,若顾客是考虑费用的问题,则不妨让统计顾问成为计划的共同负责人。

  另外行为学家也提出了五点重要的协商原则:

  1. 统计顾问应尽量避免攻击到顾客的工作或地位,如果顾客的工作能被顾问了解,相对的顾客也更能认同统计顾问地位。

  2. 顾客通常对整个计划有广泛的兴趣,先针对有共同兴趣的方面达成协议后,然后再讨论彼此意见不一致的事项。

  3. 若统计顾问所提出的角色定位是合理、公正的,会使顾客的接受程度提高。

  4. 若有前例的建议,则顾客较能够接受,因为前例可当做是一种客观的标准和有力的论点,可提高建议的公正性。

  5. 当顾客和统计顾问在权力、声誉或顾客的偏爱上有差距时,统计顾问可试着用基本的原则去进行协商,例如:统计顾问可提出一些专业上实质的贡献,像规画问题或假说(formulating the problem or hypothesis)、定出试验的设计(structuring the experimental design)、进行统计的分析(organizing and conducting the statistical analysis)、解释分析的结果(interpreting the results)和撰写大部分的报告(writing a major portion of the paper)…等专业上的工作来说服顾客给予较适当的地位或报酬。

  (2)如何引导咨询工作的进行(Influencing the direction of a consultation)

  经过行为学家多年的观察发现一些非语言的表达方式在咨询过程中有重要的影响,例如:眼睛的接触(eye contact),顾客若与顾问维持着眼睛的接触,则表示接受或同意,而避开眼睛的接触,则表示有否决的意味。另外有些反应可能影响顾客下一部的行动,这些反应可能是肢体语言或接受性的回答,例如:肯定的点点头说"嗯"、"是"或不断的重述所说的话。

  如果统计顾问想去引导顾客接下来的反应,则厘清(clarification)、赞同(approval)和一般性的指引(general leads)是最佳的使用方法,顾问表示赞同和一般性的指引能够缩小顾客可能反应的范围,并且一般性的指引可使顾客对主题有更深一层的看法。另外顾问利用解说(interpretation)和激励(urging)的方式可使顾客的想法集中在一特定的点,而咨询过程中最有力的引导方式是当顾客提出分析过程中可能遭遇的问题,则顾问可提供更多有力的信息(information gathering)解决顾客的疑虑,或者可用直接否决(rejection)和导入新的处理方案(introduction of new and apparently unrelated material)来解决问题。

  (3)如何与拥有不同统计背景的顾客合作

  现今的社会有些顾客可能曾学过一些统计,针对这样的顾客,统计顾问的处理原则是以顾客所熟知的统计方法来做分析,尽量采用最简便的分析方法来解决问题,若是最适当的分析方法超出顾客所拥有的统计知识,若可说服顾客花时间去学习的话,则问题可以轻松解决,否则还是以顾客所熟知的方法去进行。

  七、何种训练课程对想要从事数据分析科学工作的学生最有帮助

  数据分析科学所面对的问题非常广泛,所以学生必须学习将统计理论和系统方法有效的运用在解决实际问题上,并且利用这些系统方法培养出一套处理各式各样问题的哲学。虽然统计顾问所面对的问题是如此包罗万象,但大部分的问题研究可利用下列五种基本的统计技术来处理:

  常用的统计技术:

  1.回归分析(Regression analysis)

  2.基本的统计方法(Basic statistical method)

  3.变方分析(Analysis of variance)

  4.图表陈列与数据摘要(Graphical display and data summary)

  5.试验设计(Design of experiments)

  除了以上五种常用统计技术外,亦可依使用性质不同运用下列的统计技术或较不常使用的统计技术。

  一、依使用性质不同的统计技术:

  Variance-component estimation

  Biostatistics, including bioassay

  Categorical data analysis

  Quality control and acceptance sampling

  Nonlinear estimation

  Nonparameter method
  Ranking / paired comparison data analysis

  Multivariate analysis

 

  二、较不常使用的统计技术

  Probability modeling

  Simulation

  Reliability and life data analysis

  Numerical analysis

  Time series analysis

  Survey sampling

  另外,在咨询技术和沟通技巧方面的课程也是非常重要的,而且学生必须学会至少一种的程序语言(例如:FORTRAN, BASIC, DBASE, APL)和熟悉统计分析软件的使用(例如:SAS, SPSS, BMDP, MINITAB, STATISTICA, S-PLUS)。

在统计训练的过程中,强调的是实际问题的处理,故有几项重点是我们必须考虑的:

  (1)问题的规画与分析(Problem formulation and analysis)

  学生应对问题的规画有完整的了解,例如:试验的设计、数据的收集、分析和获得结论,另外,最重要且最花费时间的是统计的分析是否能适切针对问题的重心。

  (2)图表的陈列(Graphical display)

  利用图表的说明,可提供解决问题的部份讯息,不管在观念或结论上,图表均是一项有效的统计工具。

  (3)历史数据(Historical data)

  老师应让学生了解处理历史数据可能造成的缺失。

  (4)统计文学(Statistical literature)

  统计的发展日新月异,学生要随时注意统计上的新发展,并养成阅读期刊、教材的习惯。

  (5)分析的足够性(Adequate analysis)

  学生要能掌握问题的重点,给予有效、足够的分析,而不是去追求统计分析的复杂性。

  八、结论

  统计这门科学发展的时间虽不久远,但所涵盖的范围却是非常广泛,唯有不断的学习,才能成为一位优秀的统计学家,以下几点是我们应时时注意的:

  1.统计应与实际状况(实务)密切结合而不应画地自限。

  2.统计非数学,数理基础为学统计之「扎马步」工夫(背景),不可仅用数学逻辑思考来看统计。

  3.学统计一定要结合信息科技,运用信息科技的快速及精确的计算能力,辅以统计思考逻辑,构造成「活的」计量思维。

  4.由数据来探讨问题的本身,而非由统计公式来解决问题。

  5.统计理论、方法论及数据分析为上、中、下游的整合性领域不可偏废,而应畅通此三领域之交流。

 

 

首页[1]末页

 

版权所有 ©2003 中国人民大学统计数据库研究室