|
摘要:经济统计学是一门实用性很强的方法论科学,本文就当前经济统计学教材中存在的面向对象不清晰、时代感差、应用性低等问题提出教材改革的新思路,认为经济统计学教材内容拓展与改革应该走与时俱进、结合国情、以人为本和坚持实用导向的道路。
[摘
要]对回归预测、决策树、神经网络、聚类和邻点预测、规则导引等5种数据挖掘预测算法分别进行介绍,并结合实例对各种方法适用情况进行了比较,以便有针对性地对客户行为采用有效的预测方法。其中:回归预测根据历史记录分析得出总体趋势;决策树方法是一种“二分制”数据分析和预测方法,主要用于对数据进行归类分割和预测,来解决定性分析的问题;神经网络方法主要对客户行为进行分析和预测,从定量的角度进行分析。
[关键词]数据挖掘;决策树;神经网络;聚类;邻点预测
数据挖掘技术(方法)有很多,技术的“变种”也不少,数据仓库技术也支持多种预测模型以便对客户进行相应地分类和分析。如何针对具体情况,采取不同的预测方法是客户分析中迫切需要解决的问题,因此有必要对之进行分析比较。
1
常用的数据挖掘预测方法
1-1
回归预测
回归预测是比较传统的预测方法,是根据历史记录分析得出总体趋势,并将这种趋势用某种数学方程式表示。利用这个方程式,就可以输入未来的一个或多个变量,计算出预测结果。如果方程式的变量是一次方的,那么就称为直线线性回归,如果是多次方的,称为曲线线性回归。最简单的一元线性回归预测模型为Y=a+bX
。
一个实用的一元线性预测模型的建立就是为用户提供一个求解参数阿a和b的过程。不断输入历史数据X和y值,反复校准,反复验证,直到求解出误差率最小的参数,并确定口和b的值。利用计算机强大的运算能力,采用误差比较法不断对参数进行修正,便可以得到最佳模型。
这种预测模型还可变为多元多次的,其数学模型为
Y
=a+ b1X1+ b2X2+ b3X3+ ⋯ + bnXn
当然对于参数求解法的整个过程还是一样的,虽对人脑而言无法想像,但对于可以高速处理数据的电脑来说,再复杂的模型也可以得出结果,至于结果准确不准确,有赖于历史数据的多寡以及其他“不可测因素”的干扰程度。
1-2
决策树
决策树是一种类似于“枝桠”形状的“二分制”数据分析和预测方法,主要用于对数据进行归类分割和预测,如市场营销部门根据客户的特征,对客户大市场进行“分割”,从而得到相对较小的客户群体。在预算有限的情况下,可以针对性地开展市场营销活动,从而节省资金,避免浪费,提高促销活动回报率。
另外,决策树也广泛用于其他数据挖掘工具(如神经网络的数据预处理工具),通过对数据的初步探索,找出最相关的变量集。
图1是一个典型的对“流失客户”特征进行分析的决策树,每个“树丫”的生长,表示对流失客户的进一步划分,直到这个树丫无法继续细分为止。或者说,这个树丫所代表的客户群性质“相当类似”,任何更多的细分都没有什么意义了。这就是树的“枝末”,也是最后的最小分割。如果这种最小分割达到一个客户,就是所谓的“一对一营销”的理想境界了。营销人员便可以对一个或多个“枝末”客户进行促销,以实现留住客户,提高促销成功率的目的。
图1
对客户流失情况进行分析预测的决策树例子
决策树的目的是对一个数据样本进行最大限度的分割,也就是让这棵树得到合理生长。要做到这一点,对每个节点所提的问题要尽量有效,并且所有问题要尽量与要探索的业务目的相关。在对一个数据样本分析之前,如果知道了哪些问题相关与否,也就失去了数据挖掘的意义,因为数据挖掘的目的就是为了找到隐含的、尚未明了的某种行为模式。
在进行决策树分析时,首先要明确到底要分析什么,目的是什么,并且提供学习的样本数据要尽量多而且准确。支持决策树模型的数据仓库产品中,提供了“决策树”生长的机制,计算机可以帮助优化树的生长。一个问题不是很有效,就用另外一个,直到找到每个级别都是最优分割为止。在预测方面,企业可以根据需要“生长”多棵树,经大量时间证明后,可以成为企业特有的有效预测模型,提高决策能力。
1-3
神经网络
用于数据挖掘的神经网络技术是人脑对信息处理的简单模拟。人工神经网络系统的“神经元”,基本上模拟人脑神经元处理过程,以最简单的乘积之和(输入值乘以每个输入的比重参数)作为输出,即
Y=∑Wn
× Xn ( n=0,1,⋯,m )。
一个单输出的典型的线性神经网络,除了输入和输出层外,还有一个或多个中间层(隐含层)。层与层之间节点的关系可以是完全连接,也可以是部分连接,总之,最后输出的结果总是各输入变量的函数,并在中间层提供必要的校正。
神经网络技术应用于客户管理系统(CRM),可以对客户行为进行分析和预测。相对于决策树的定性分析预测方法,神经网络可以达到定量阶段。不过,决策树的一些结果可以作为定义神经网络输入变量的依据。目前,神经网络的应用产品大部分还不太成熟,处于研究阶段的较多。预计随着企业对数据挖掘需要的提高,适用于特定行业、特定业务员的分析预测的神经网络产品将不断问世。
1-4
聚类和邻点预测
聚类是如何将一批数据按照相似特性归类,使用户对它们有一个形象的概括性理解;邻点预测是在归类的基础上对未来数据进行预测,是一个简单的只有两个变量的聚类图,目的是看看公司销售的所有产品的销售量有无特别的地域优势。
相对于其他数据挖掘技术,聚类比较容易让人理解,倾向于定性分析,较难定量地获得某种结果。
1-5
规则导引
数据挖掘技术中的规则导引就是要从大量的客户数据中挖掘出这些规则。规则导引的引擎(应用软件)要将一个规则的几个部分模型化,并根据统计结果对各个部分进行“填写”。由于规则是用人类的语言来描述规律性行为,因此比较容易被企业员工理解和执行。
2
五种方法的比较分析
数据挖掘技术的预测方法虽然有多种,但是每一种预测方法都适用于不同的情况,解决不同类型的问题。有些数据挖掘在定性和数据分类方面使用方便,可以用作更高一级预测的“探索”工具。比如,先用决策树或聚类方法帮助找出数据的总体趋势以及预测变量相关性之后,再用神经网络或规则导引方法有针对性的建模,一来可以细化数据,提高性能,二来在某种程度上也可以帮助消除噪音;另一方面也可以作为不同方法比较之用。
数据挖掘技术中,决策树和聚类是市场分割的常用工具。大多数分类型数据挖掘系统都提供高度自动化的市场分割工具,给出一定的参数,经过一定时间的运算,就可以给出一个分类,如果同事实情况不符,那十有八九是数据不够准确和完整,或者噪音太多。
总而言之,回归预测主要是根据历史记录分析得出总体趋势,一般解决能够用数学方程式表示的问题;决策树主要进行归类分割和预测,一般从定性的角度分析解决问题,神经网络主要是对某种情形的可能性进行预测,可以精确到定量的解决问题;聚类方法倾向于定性的分析,主要是把客户进行分类比较,难以定量地获得某种结果,所以一般作为其他如决策树和神经网络等方法地应用基础,在归类以后,对某种特定类型进行分析,可以达到消除数据噪音,提高数据可靠性的效果;规则导引主要对客户行为进行分析,通过归纳分析导引出预测结果。
[参考文献]
[l]
汤兵勇,王素芬。客户关系管理[M]。北京:高等教育出版社,2003:86—88。
[2]
邵兵家,于同奎。客户关系管理——理论与实践。北京:清华大学出版社,2004:120-124。
[3]
何荣勤。CRM原理设计与实践。北京:电子工业出版社,2003:90—92。
首页[1]末页
|