
《《应用多元统计分析》第五版(第五章)教学课件》由会员分享,可在线阅读,更多相关《《应用多元统计分析》第五版(第五章)教学课件(102页珍藏版)》请在文档大全上搜索。
1、第五章 判别分析v5.1 引言v5.2 距离判别v5.3 贝叶斯判别v5.4 费希尔判别v5.5 逐步判别1判别分析的目标v目标1(预测方面):分类(或分配)。在已知历史上用某些方法已把研究对象分成若干组(亦称类或总体)的情况下,来判定新的观测样品应归属的组别。v目标2(描述方面):分离。就是用图形(通常二维,有时三维或一维,一般通过降维实现)方法或代数方法描述来自各组的样品之间的差异性,最大限度地分离各组。25.1 引言v要判定一个样品的归属,理想的情况似乎是能够获得完备的用于分类的信息,以作出准确的判断。但这往往是不太现实的,因为要获得完备的信息可能根本做不到(如红楼梦后四十回的作者到底是
2、谁)要做破坏性的试验(如欲获知某电子仪器的寿命)成本高昂(如许多疾病只有通过代价高昂的手术才能确诊)。v实践中往往是依据不完备信息来进行判别分类的。3判别分类的例子v有偿付力与无偿付力的财产责任保险公司。 测量变量:总资产,股票与债券价值,股票与债券的市值,损失支出,盈余,签定的保费金额。v非溃疡胃病组(胃功能紊乱者)与控制组(“正常”者)。 测量变量:焦虑、依赖性、罪恶感、完美主义的量度。4v两种野草。 测量变量:萼片与花瓣的长度,花瓣裂缝的深度,苞的长度,花粉直径。v新产品的速购者与迟购者。 测量变量:教育,收入,家庭大小,过去更换品牌的次数。v良好信用与不良信用风险。 测量变量:收入,年
3、龄,信用卡数目,家庭规模。5本章讨论的判别分析v每一组中所有样品的p维指标值 构成了该组的一个p元总体分布。v我们对新样品x进行的判别归类将在很大程度上依赖于各组的总体分布或其分布特征。v距离判别和贝叶斯(Bayes)判别只能用于分类。v费希尔(Fisher)判别即可用于分类,也可用于分离,且更多地用于后者。v这些都是基于判别变量为定量变量的。612,px xxx5.2 距离判别v一、两组距离判别v二、多组距离判别7一、两组距离判别v设组1和2的均值分别为1和2,协差阵分别为1和2(1,20) ,x是一个新样品(p维),现欲判断它来自哪一组。v(基于马氏距离的)判别规则:v1. 1=2=时的判
4、别v2. 12时的判别82211222212,ddddxxxxxx若若1. 1=2=时的判别 9 22121111221111111112221112111221121121211212,=22=2=22222dd xxxxxxx xx x xx x x xxaa x 其中 。v令 ,则上述判别规则可简化为称W(x)为两组距离判别的(线性)判别函数,称a为判别系数向量。 Wxax1121212a, 12,0,0WWxxxx若若10(5.2.3)误判概率v误判概率v设1Np(1, ), 2Np(2, ),则其中 是两组之间的马氏距离。v可见,两个正态组越是分开(即越大),两个误判概率就越小,此时
5、的判别效果也就越佳。当两个正态组很接近时,两个误判概率都将很大,这时作判别分析就没有什么实际意义了。 122|10|1|20|PP WPP Wxxxx2|11|22PP1121211组之间是否已过于接近的界定v我们可对假设H0:1 =2,H1:12进行检验,若检验接受原假设H0 ,则说明两组均值之间无显著差异,此时作判别分析一般会是徒劳的。v若检验拒绝 H0 ,则两组均值之间虽然存在显著差异,但这种差异对进行有效的判别分析未必足够大,此时还应看误判概率是否超过了一个合理的水平。12v例5.2.1 设p=1,1和2的分布分别为N(1,2)和N(2,2),1,2,2均已知,12,则判别系数a=(1
6、2)/ 20,判别函数:判别规则:误判概率:误判概率图示: W xa x12,xxxx若若122|11|222PP13抽取样本估计有关未知参数v设 是来自组1的样本, 是来自组2的样本,n1+n22p,则1和2的一个无偏估计分别为的一个联合无偏估计为其中111121,nxxx221222,nxxx121122111211nnjjjjnnxxxx和112212112pnnnnSSS11,1,21iniijiijijiinSxxxx14v实际使用的判别函数为这里 。其判别规则为v若1和2都为正态组,则两个误判概率P(2|1)和P(1|2)可估计为其中。该误判概率的估计是有偏的,但大样本时偏差的影响
7、是可以忽略的。 Wxaxx112121,2pxxxaSxx 12,0,0WWxxxx若若2|11|22PP11212pxxSxx15(5.2.5)误判概率的非参数估计v若两组不能假定为正态组,则P(2|1) 和 P(1|2) 可以用样本中样品的误判比例来估计,通常有如下三种非参数估计方法:v(1)回代法令n(2|1)为样本中来自1而误判为2的个数,n(1|2)为样本中来自2而误判为1的个数,则P(2|1) 和P(1|2) 可估计为该方法简单、直观,且易于计算。但遗憾的是,它给出的估计值通常偏低,除非n1和n2都非常大。122|11|22|1,1|2nnPPnn16出现乐观估计的原因v同样的样本
8、信息被重复使用。判别函数自然对构造它的样本数据有更好的适用性,以致出现偏低的误判率。17v(2)划分样本将整个样本一分为二,一部分作为训练样本,用于构造判别函数,另一部分用作验证样本,用于对该判别函数进行评估。误判概率用验证样本的被误判比例来估计,其估计是无偏的。该方法的两个主要缺陷:(i)需要用大样本;(ii)该方法构造的判别函数只用了部分样本数据,与使用全部样本数据构造的判别函数相比,损失了过多有价值的信息,其效用自然不如后者,表现为前者的误判概率通常将高于后者的,而后者的误判概率才是我们真正感兴趣的。该缺陷随样本容量的增大而逐渐减弱,甚至可基本忽略。18v(3) 交叉验证法(或称刀切法)
9、从组1中取出x1j,用该组的其余n11个观测值和组2的n2个观测值构造判别函数,然后对x1j进行判别,j=1,2, ,n1。同样,从组2中取出x2j,用这一组的其余n21个观测值和组1的n1个观测值构造判别函数,再对x2j作出判别,j=1,2, ,n2。令 n*(2|1)样本中来自1而误判为2的个数n*(1|2)为样本中来自2而误判为1的个数 则两个误判概率P(2|1)和P(1|2)的估计量为它们都是接近无偏的估计量。19*122|11|22|1,1|2nnPPnnv以上所述误判概率的这三种非参数估计方法同样适用于其它的判别方法或判别情形,并且可类似地推广到多组的情形。202. 12时的判别v
10、判别规则:v也可采用另一种形式:选择判别函数为 它是x的二次函数,相应的判别规则为 221211111222,Wddxxxxxxx 12,0,0WWxxxx若若2211222212,ddddxxxxxx若若21(5.2.10)v例5.2.2 在例5.2.1中,设1和2这两个组的方差不相同,分别为 ,这时当1x0),2(0), ,k(0),x到总体i的平方马氏距离为判别规则为v该判别规则不受变量单位的影响。v若1=2= =k=,则上述判别规则可简化。 d2(x,i)=(xi)1(xi)=x1x2i1x+i1i =x1x2(Iix+ci)其中 ,判别规则简化为21,1,2,iiiidikxxx22
11、1,min,llii kdd xxx若111,1,2,2iiiiicik I 24这里Iix+ci为线性判别函数。v当组数k=2时,可将上式写成v它等价于(5.2.3)式的判别规则: 因为1,maxllliii kcc xI xI x若1112221122,ccccxI xI xxI xI x若若25(5.2.14)(5.2.15) 1122WccxI xI x 12,0,0WWxxxx若若v实践中1,2, ,k和1,2, ,k一般都是未知的,它们的值可由相应的样本估计值代替。设 是从组i中抽取的一个样本,则i可估计为(i=1,2, ,k)。12,iiiinxxx111iniijjnxx261
12、=2= =k=的情形v的联合无偏估计为其中n=n1+n2+ +nk, 为第i组的样本协方差矩阵。v实际应用中使用的判别规则是其中 。111kpiiinnkSS11()()1iniijiijijinSxxxx1,maxllliii kcc xI xI x若111,1,2,2ipiiipicik IS xx S x27(5.2.17)1,2, ,k不全相等的情形vi可估计为Si(i=1,2, ,k)。v实际应用中使用的判别规则是其中221,min,llii kdd xxx若21,1,2,iiiidikxxxSxx28(5.2.18)判别分类是否有效v除非各组均值向量之间有明显的差异,否则就不适合作
13、判别分类。v在各组数据满足一定的条件下,可先进行多元方差分析。如果检验没有发现均值间有显著差异,则此时再作判别分类将是白费精力如果检验结果有显著差异,则可考虑再进行判别分类,但并不意味着所作的判别一定有效,最终还得看一下误判概率。29采用线性还是二次判别函数的策略v(1)一般而言,如果各组的样本容量普遍较小,则选择线性判别函数应是一个较好的策略。相反地,如果各组的样本容量都非常大,则更倾向于采用二次判别函数。v(2)对1,2, ,k作齐次性检验,即检验假设H0:1=2= =k,H1:1,2, ,k不全相等即使检验所需的正态性假定能够满足,检验的结果也只能作为重要的参考依据,而不宜作为决定性的依
14、据,最终还是应视具体的情况而定。30v(3)我们有时也凭直觉判断一下计算出的S1,S2, ,Sk是否比较接近,以决定是否应假定各组的协方差矩阵相等。v(4)如果对使用线性还是二次判别函数拿不准,则可以同时采用这两种方法分别进行判别,然后用交叉验证法来比较其误判概率的大小,以判断到底采用哪种方法更为合适。但小样本情形下得到的误判概率估计不够可靠。31例5.2.3 v对破产的企业收集它们在破产前两年的年度财务数据,同时对财务良好的企业也收集同一时期的数据。数据涉及四个变量:x1=现金流量/总债务,x2=净收入/总资产,x3=流动资产/流动债务,以及x4=流动资产/净销售额。数据列于表5.2.1,组
15、为破产企业,组为非破产企业。32编号组别x1x2x3x4编号组别x1x2x3x41-0.45-0.411.090.45240.380.113.270.352-0.56-0.311.510.16250.190.052.250.3330.060.021.010.4260.320.074.240.634-0.07-0.091.450.26270.310.054.450.695-0.1-0.091.560.67280.120.052.520.696-0.14-0.070.710.2829-0.020.022.050.3570.040.011.50.71300.220.082.350.48-0.07-0
16、.061.370.4310.170.071.80.5290.07-0.011.370.34320.150.052.170.5510-0.14-0.141.420.4333-0.1-0.012.50.5811-0.23-0.30.330.18340.14-0.030.460.26120.070.021.310.25350.140.072.610.52130.0102.150.7360.150.062.230.5614-0.28-0.231.190.66370.160.052.310.2150.150.051.880.27380.290.061.840.38160.370.111.990.3839
17、0.540.112.330.4817-0.08-0.081.510.4240-0.33-0.093.010.47180.050.031.680.95410.480.091.240.18190.0101.260.6420.560.114.290.44200.120.111.140.17430.20.081.990.321-0.28-0.271.270.51440.470.142.920.45220.510.12.490.54450.170.042.450.14230.080.022.010.53460.580.045.060.13表5.2.1 破产状况数据33v使用线性判别函数进行判别12120
18、.06900.23520.08140.05561.36672.59360.43760.42680.88260.56950.68990.08290.56950.42010.52040.0688200.68990.52043.28610.65560.08290.06880.65560.8916124xxSS,.12920.20421.79830.16090.20420.05700.20600.00441.79830.206025.12260.78320.16090.00440.78320.633134的联合估计为1210.04570.01760.05660.00180.01760.01080.01
19、650.00171(20240.05660.01650.64570.0327440.00180.00170.03270.034767.9692106.23643.855612.2182106.2364262.20583.689921.51373.855ppSSSS)11112263.68991.90202.169312.218221.51372.169332.56324.0355.29518.38710.0201.6163.30612.1949.949ppIS xIS x,35于是对某个未判企业x=(0.16, 0.10, 1.45, 0.51),计算得按线性判别函数规则,该企业被判为破产企业
20、。11111222114.382,6.75422ppcc x S xx S x1112342212344.03518.3871.61612.1944.3825.29510.0203.3069.9496.754cxxxxcxxxx I xI x11225.373,3.268ccI xI x表5.2.3 判别情况判别为真实组18312436v在表5.2.3中,估计的误判概率为v使用交叉验证法,判别情况列于表5.2.4。v在表5.2.4中,估计的误判概率为122|11|2312|10.143,1|20.042125nnPPnn表5.2.4 判别情况判别为真实组183223322|10.143,1|2
21、0.082125PP37v如果使用二次判别函数进行判别,则由回代法算出的误判率为 由交叉验证法估算出的误判概率为212|10.095,1| 20.042125PP412|10.190,1| 20.042125PP385.3 贝叶斯判别v一、最大后验概率法v二、最小期望误判代价法39距离判别不合适的一个例子v研究的指标是英语六级考试成绩(满分为710分)1(校研究生组):N1=2000, 1=5002(校本科生组):N2=8000, 2=400研究生组中x500的有1000人, 本科生组中x500的有2000人。某该校学生的x=500,试判别该生归属哪一组。距离判别显然不妥,应考虑利用先验概率:
22、 12200080000.2,0.81000010000pp40一、最大后验概率法v设有k个组1, 2, , k,且组i的概率密度为fi (x),样品x来自组i的先验概率为pi ,i=1,2, ,k,满足p1+p2 + +pk =1。则x属于i的后验概率为v最大后验概率法是采用如下的判别规则: 1|,1,2,iiikjjjp fPikp fxxx1,|max|llii kPP xxx若41(5.3.2)v例5.3.1 设有1,2和3三个组,欲判别某样品x0属于何组,已知p1=0.05,p2=0.65,p3=0.30,f1(x0)=0.10, f2(x0)=0.63,f3(x0)=2.4。现计算
23、x0属于各组的后验概率如下: 所以应将x0判为组3。1 101030122020301330303010.05 0.10|0.05 0.100.65 0.630.30 2.40.0050.0041.13450.65 0.63|0.3611.13450.30 2.4|0.6351.1345iiiiiiiiip fPp fp fPp fp fPp fxxxxxxxxx42皆为正态组的情形v设iNp(i,i),i0, i=1,2, ,k。这时,组i的概率密度为fi(x)=(2)p/2|i|1/2exp0.5d2(x,i)其中d2(x,i)=(xi)i 1 (xi)是x到i的平方马氏距离。v以下各情形
24、下后验概率的具体计算公式。当p1=p2= =pk=1/k,1=2= =k=时,2211exp,2|1exp,2iikjjdPdxxx43当p1=p2= =pk=1/k,而1,2, ,k不全相等时,当1=2= =k=,而p1,p2, ,pk不全相等时,当p1,p2, ,pk不全相等,1,2, ,k也不全相等时,2211exp,ln2|1exp,ln2iiikjjjdPdxxx2211exp,2ln2|1exp,2ln2iiikjjjdpPdpxxx2211exp,ln2ln2|1exp,ln2ln2iiiikjjjjdpPdpxxx44v上述各情形的后验概率可统一表达为其中D2(x,i)=d2(
25、x,i)+gi+hi2211exp,2|,1,2,1exp,2iikjjDPikDxxx12121212ln,02ln,101,2,ikikikikgpp pphpppkik 若不全相等,若, 若不全相等,若45v称D2(x, i)为x到i的广义平方距离。在正态性假定下,上述判别规则也可等价地表达为v当1=2= =k=时,上述后验概率公式可简化为其中Ii=1i,ci=0.5i1i, i=1,2, ,k。此时,判别规则等价于v如果我们对x来自哪一组的先验信息一无所知或难以确定,则一般可取p1=p2= =pk=1/k。这时,判别规则简化为221,min,llii kDD xxx, 若 ()()1e
26、xpln|,1,2,explniiiikjjjjcpPikcp I xxI x1,lnmaxlnlllliiii kcpcp xI xI x若461,maxllliii kcc xI xI x若v实际应用中,以上各式中的i和i(i=1,2, ,k)一般都是未知的,需用相应的样本估计值代替。v例5.3.2 在例5.2.3中,已知破产企业所占的比例约为10%,即可取p1=0.1,p2=0.9,假定两组均为正态,且1=2=,则未判企业x=(0.16, 0.10, 1.45, 0.51)的后验概率为由于P(1|x)0, i=1,2。v当1=2=时,(5.3.13)式可具体写成其中a=1(12), 。在
27、p1=p2,c(1|2)=c(2|1)的条件下上式将退化为(5.2.3)式。2112211|2ln2|11|2ln2|1cpcpcpcpxaxxax, 若, 若121258v在两组皆为正态组且协差阵相等的情形下,距离判别(5.2.3)等价于不考虑先验概率和误判代价相当于p1=p2,c(1|2)=c(2|1)时的贝叶斯判别。v重要结论:在上述情形下,判别规则(5.2.3)在使两个误判概率之和(或平均误判概率)达到最小的意义上是最优的。v实践中,因未知参数需用样本值替代,故实际所使用的判别规则(5.2.5)只是渐近最优的。v当12时,(5.3.13)式可写为 其中d2(x,i)=(xi)i1(xi
28、), i=1,2。591/212221121/2211/212222121/2212|1()2ln1|22|1()2ln1|2cpddcpcpddcpxxxxxx, 若, ), 若, ),v在p1=p2,c(1|2)=c(2|1)的条件下上式可简化为v在两组皆为正态组的情形下,判别规则(5.3.20)在使两个误判概率之和(或平均误判概率)达到最小的意义上是最优的。此时,它当然也就优于(5.2.10)式的距离判别。v基于二次函数的判别规则相比线性判别规则,其判别效果更依赖于多元正态性的假定。v实践中,为了达到较理想的判别效果,需要时可以考虑先将各组的非正态性数据变换成接近正态性的数据,然后再作判
29、别分析。601/22221121/211/22222121/21()2ln()2lnddddxxxxxx, 若, ), 若, ),(5.3.20)3.多组的情形v设 fi(x)为组i的概率密度函数,i=1,2, ,k。令pi组i的先验概率,i=1,2, ,k。c(l|i)将来自i的x判为l的代价, l,i=1,2, ,k,对l=i,c(i|i)=0,i=1,2, ,k。Rl所有判为l的x的集合,l=1,2, ,k。于是 |dlliiRP l iPRfxxxx61v期望误判代价:v使ECM达到最小的判别规则是 11111111|,|kkililkkliiilkkkkiililil iECME c
30、 l ic l i PRc l i PRPc l i P l i ppc l i P l i xxxxx62 111,|min|kkljjjji kjjj lj ip c lj fp c i j f xxx若v例5.3.5 在例5.3.1中,假定误判代价矩阵为现采用最小ECM规则进行判别。l=1:p2c(1|2) f2(x0)+p3c(1|3) f3(x0) =0.65200.63+0.30602.4=51.39l=2:p1c(2|1) f1(x0)+p3c(2|3) f3(x0) =0.05100.10+0.30502.4=36.05l=3:p1c(3|1) f1(x0)+p2c(3|2)
31、f2(x0) =0.052000.10+0.651000.63=41.95由于l=2时为最小值,故将x0判为2。63假定所有的误判代价都是相同的,不失一般性,可令c(l|i)=1, li, l,i=1,2, ,k,则此时称为总的误判概率。故此时的最小期望误判代价法也可称为最小总误判概率法,并且上式可简化为 让 减去上面等式的两边,即有更简洁的形式:111|1|kkkiiilil iECMpP l ip P i i 64 111,minkkljjjji kjjj lj ip fp f xxx若 1kjjjp fx 1,maxllliii kp fp f xxx若v它与(5.3.2)式是等价的。因
32、此,此时的最小总误判概率法等同于最大后验概率法,或者说,最大后验概率法可看成是所有误判代价均相同时的最小期望误判代价法。v当p1=p2= =pk=1/k时,上式又进一步简化为 该判别规则实际上也是一种极大似然法。 65 1,maxllii kff xxx若v注 令B=误判,Ai=样品来自i,i=1,2, ,k 则总的误判概率为总的正确判别概率为 111|kkkiiiiill iP BP A P B ApP l i 111111|11|kkiill ikkiiiiP BP BpP l ipP i ip P i i 665.4 费希尔判别v一、费希尔判别的基本思想v二、费希尔判别函数v三、判别函数
33、得分图v四、判别规则67一、费希尔判别的基本思想v费希尔判别(或称典型判别)的基本思想是投影(或降维):用p 维向量 的少数几个线性组合(称为费希尔判别函数或典型变量) (一般r明显小于p)来代替原始的p个变量x1,x2, ,xp ,以达到降维的目的,并根据这r个判别函数y1,y2, ,yr对样品的归属作出判别或将各组分离。成功的降维将使样品的归类或组的分离更为方便和有效,并且可以对前两个或前三个判别函数作图,从直观的几何图形上区别各组。12,px xxx1122,rryyya xa xa x68一个说明性的二维例子69二、费希尔判别函数v设来自组i的p维观测值为xij,j=1,2, ,ni,
34、i=1,2, ,k,将它们共同投影到某一p维常数向量a上,得到的投影点可分别对应线性组合yij=axij,j=1,2, ,ni,i=1,2, ,k。v费希尔判别需假定1=2= =k=。701111111iiniijijinkkijiiijiyynyyn ynna xa x11111,inkkiiijiiijiinnnnnxxxx式中。三组之间的分离程度71图5.4.2 三组之间的分离程度vyij的组间平方和及组内平方和分别为v式中v可用来反映yij的组之间分离程度的一个量是722211221111iikkiiiiiinnkkijiijiijijSSTRnyynSSEyy a xa xa Haa
35、 xa xa Ea11111ikiiiinkkiiijiijiiijnnHxxxxESxxxx SSTRSSEa Haaa Eav在约束条件aSpa=1下,寻找a,使得(a)达到最大,其中 是的联合无偏估计。v设E1H的全部非零特征值依次为12 s0,这里s=rank(H),且有smin(k1,p) 相应的特征向量依次记为t1,t2, ,ts(标准化为tiSpti=1, i=1,2, ,s)。v当a1= t1时(a1)达到最大值1。所以,选择投影到t1上能使各组的投影点最大限度地分离,称y1=t1x为费希尔第一线性判别函数,简称第一判别函数。v在许多情况下(如k或p是大的),仅仅使用第一判别函
36、数也许不够,应考虑建立y2=a2x,且满足731pnkSE121212Cov,Cov,0y yt x a xt av用Sp代替未知的,于是在约束条件t1Spa2=0(或t1Ea2=0)下寻找a2,使得(a2)达到最大。当a2= t2时(a2)达到最大值2,称y2=t2x为第二判别函数。一般地,我们要求第i个线性组合yi=aix不重复前i1个判别函数中的信息,即v用Sp替代,上式变为v在上述约束条件下寻找ai,使得(ai)达到最大。当ai=ti时(ai)达到最大值i,称yi=tix为第i判别函数,i=2,3, ,s。v有时我们也使用中心化的费希尔判别函数,即式中为k个组的总均值。74Cov,Co
37、v,01,2,1jijijiyyjit x a xt a,001,2,1jpijijit S at Ea(或),,1,2,iiyistxx111inkijijnxx=费希尔判别函数的特点v(1)各判别函数都具有单位(联合样本)方差;v(2)各判别函数彼此之间不相关(确切地说,是彼此之间的联合样本协方差为零);v(3)判别函数方向t1,t2, ,ts并不正交,但作图时仍将它们画成直角坐标系,虽有些变形,但通常并不严重。v(4)判别函数不受变量度量单位的影响。75v组数k=2时只有一个判别函数,k=3时最多只有两个判别函数。v(ti)=i表明了yi对分离各组的贡献大小,yi在所有s个判别函数中的贡
38、献率为v而前r(s)个判别函数y1,y2, ,yr的累计贡献率为 它表明了y1,y2, ,yr的判别能力。v在实际应用中,如果前r个判别函数的累计贡献率已达到了一个较高的比例(如75%95%),则就采用这r个判别函数进行判别。761sijj11rsiiii三、判别函数得分图v为作图的目的,一般取r=2,偶尔取r=3,v当取r=2时,可将各样品的两个判别函数得分画成平面直角坐标系上的散点图,用目测法对新样品的归属进行辨别或对来自各组样品的分离情况及结构进行观测评估。v当r=3时,可作(三维)旋转图从多角度来辨别新样品的归属或观测评估各组之间的分离效果,但其目测效果一般明显不如r=2时清楚。v能够
39、利用降维后生成的图形进行直观判别是费希尔判别的最重要应用,图中常常能清晰地展示出丰富的信息,如发现构成各组的结构、离群样品点或数据中的其他异常情况等。77v例5.4.1 费希尔于1936年发表的鸢尾花(Iris)数据被广泛地作为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花(第组)、变色鸢尾花(第组)和弗吉尼亚鸢尾花(第组)各抽取一个容量为50的样本,测量其花萼长(x1)、花萼宽(x2)、花瓣长(x3)、花瓣宽(x4),单位为mm,数据列于表5.4.1。78表5.4.1 鸢尾花数据编号组别x1x2x3x4编号组别x1x2x3x4150331422642856221415523401336528
40、46151426630441446731562414368284814563285115144543417264634143145513715476931512314652351528622245151475828512495932481814867305017104636102149633360251505337152v本题中,n1=n2=n3=50,n=n1+n2+n3=150。经计算1233150.0659.3665.8834.2827.7029.74,14.6242.6055.522.4613.2620.2658.43330.573137.58011.993iiinnxxxxx7931
41、6321.2131995.26716524.8407127.9331995.2671134.4935723.9602293.26716524.8405723.96043710.28018677.4007127.9332293.26718677.4008041.333iiiinHxxxx3113895.6201363.0002462.460564.5001363.0001696.200812.080480.8402462.460812.0802722.260627.180564.500480.840627.180615.660inijiijiijExxxx80E1H的正特征值个数s=min(k1
42、,p)=min(2,4)=2,可求得两个正特征值1=32.192, 2=0.285相应的标准化特征向量13.0581.0818.1123.4595.5622.17814.9656.3088.0772.94321.5129.14210.4973.42027.54911.846E H120.0830.0020.1530.2160.2200.0930.2810.284tt,81所以,中心化的费希尔判别函数为判别函数的组均值为1112342212340.08358.4330.15330.5730.22037.5800.28111.9930.00258.4330.21630.5730.09337.580
43、0.28411.993yxxxxyxxxx txxtxx1121311222327.6081.8255.7830.2150.7280.513yyyyyy ,82图5.4.2 鸢尾花数据两个判别式得分的散点图83v各组如能在前几个判别函数构成的低维空间中分离得较好,则在原始变量的更高维空间中一般也会分离得好;反之未必。v费希尔判别虽是一种很好的降维投影方法,但该方法也有其不适用的场合。84图5.4.4 不适合使用费希尔判别的一个例子四、判别规则v*1.一般情形v2.两组情形85*1.一般情形v由于各判别函数都具有单位方差且彼此不相关,故此时的马氏距离等同于欧氏距离。我们采用距离判别法,依据(y1
44、,y2, ,yr)值,判别新样品归属离它最近的那一组。v判别规则为其中 ,i=1,2, ,k 。该判别规则也可表达为8622111minrrljljjiji kjjyyyy x, 若11inijjiiijjiynt x xx, =22111minrrljljii kjj xtxxtxx, 若(5.4.7)v如果只使用一个判别函数进行判别(即r=1),则以上判别规则可简化为式中y和 (i=1,2, ,k)分别是前面判别规则中的y1和 (i=1,2, ,k)。v如果使用所有s个判别函数作判别(即r=s),则费希尔判别(5.4.7)等价于距离判别(5.2.17) ,自然对各组皆为正态也等价于协方差矩
45、阵相等且先验概率和误判代价也均相同的贝叶斯判别。1minllii kyyyy x, 若iy1 iy87v例5.4.2 在例5.4.1中,k=3,取r=s(=2),使用(5.4.7)式或(5.2.17)式进行判别分类。回代法的判别情况列于表5.4.2。所以这些误判概率是比较低的。判别为真实组500004820149表5.4.2 判别情况2|103|1021|203|20.045011|302|30.0250PPPPPP,882.两组情形v对于两组的判别,费希尔判别函数只有一个,有r=s=1,从而(5.4.7)式等价于(5.2.17)式,而后者又退化为(5.2.6)式。v因此,两组的费希尔判别等价
46、于协方差矩阵相等的距离判别,对两个正态组也等价于协方差矩阵相等且先验概率和误判代价也均相同的贝叶斯判别。895.5 逐步判别v逐步判别法是判别分析中一种自动搜索变量子集的方法,它未必最优,但往往却是有效的,是一种应用最广泛的判别变量选择方法。v逐步判别法的基本思想及基本步骤类似于回归分析中的逐步回归法。v一、附加信息检验v二、变量选择的方法90一、附加信息检验v设x=(x1,x2),其中x1=(x1,x2, ,xr)是原先用作判别的变量,而x2=(xr+1,xr+2, ,xp)是新引入的变量。v我们希望知道,在已有x1用作判别的条件下,x2所提供的(超越x1所含信息的)附加信息能否使区分各组的
47、能力有显著的提高。如果没有显著提高,则就认为x2的引入是不值得的。v设有k个组1,2, ,k,其x的分布皆为p元正态分布,且具有相同的协方差矩阵。从这k个组中各自独立地抽取一个样本,n为k个组的总样本容量。欲检验H0:各组的E(x2|x1)相等,H1:各组的E(x2|x1)不全相等91v将组内平方和及叉积和矩阵E,组间平方和及叉积和矩阵H分块为: 则检验统计量为 其中921112111221222122,rrprprrprrprEEHHEHEEHH12211,|x xxxx111211111,EEx xxEHEHv当H0为真时,(x2|x1)服从(pr,k1,nkr)。我们特别感兴趣的是pr=
48、1(即r=p1)时的情形,此时 偏统计量 偏F统计量v对给定的,拒绝规则为:若FF(k1,nkp+1),则拒绝H09312121121,|,1,1,1ppppx xxxx xxx xxknkp12111|,11,1ppnkpFF xx xxkF knkp二、变量选择的方法v判别分析的变量选择方法:前进法、后退法和逐步判别法。v前进法开始时没有用作判别的变量,每次选入一个对判别能力的提高有最显著作用的变量,过程只进不出,当不再有未被选入的变量达到临界值时,前进选入的过程停止。v后退法的过程与前进法相反,开始时引入所有变量,每次剔除一个对判别能力的提高最不显著的变量,过程只出不进,当余下的变量都达
49、到用作判别的标准时,后退剔除的过程停止。v逐步判别法是前进法和后退法的结合,在变量的选择过程中有进有出。实践中,逐步判别法通常最受欢迎。94逐步判别法的基本步骤v(1)对每个xi,计算其一元方差分析的F统计量F(xi),不妨设 ,即x1有最大的判别能力。 若F(x1)F(k1,nk),则表明没有一个变量可以选入; 若F(x1)F(k1,nk),则x1选入,并进入下一步。v(2)对(1)中每一未选入的变量,计算偏F统计量F(xi|x1),不妨设 ,即x2对判别能力的提升有最大贡献。若F(x2|x1)F(k1,nk1),则选变量过程结束;若F(x2|x1) F(k1,nk1),则x2选入,并进入下
50、一步。95 1maxiiF xF x2112|max|ii pF xxF xx v一般地,如已选入了r个变量,不妨设是x1,x2, ,xr,并设若 ,则选变量过程结束;若,则xr+1选入,并进入下一步。v(3)在第r+1个变量选入后,要重新核实较早选入的r个变量,应将对判别效果不再显著的变量剔除出去。不妨设若 ,则没有变量需剔除,回到(2);若 F(k1,nkr),则剔除变量xl,再对其余r1个变量继续进行核实,直至无变量可剔除为止,然后再回到(2)。96112121|,max|,rrirri pF xx xxF xx xx 112|,1,rrF xx xxFknkr112|,1,rrF xx
51、 xxFknkr111111111|,min|,lllriiiri rF xxxxxF xxxxx 1111|,1,lllrF xxxxxFknkr1111|,lllrF xxxxxv(4)经过(2)和(3)的不断选入和剔除的过程,最后既不能选进新变量,也不能剔除已选入的变量,变量选择过程到此结束。v如果选入变量的临界值F进和剔除变量的临界值F出相同,则有很小的可能性会使得变量的选入和剔除过程无休止、连续不断地循环进行下去。但只要在确定临界值时让F出比F进略微小一点,这种可能性就可以被排除。v进行逐步判别实际上是在做逐步多元方差分析,在变量的筛选过程中没有任何判别函数被计算。在变量筛选完成后,
52、我们方可以对选择的变量计算判别函数和建立判别规则。97v例5.5.1 对例5.4.2中的数据作逐步判别,具体步骤如下:(1)对每一变量分别计算一元方差分析的F统计量和p值,并列于表5.5.1。x3第一个选入。(2)98表5.5.1 F统计量和p值变量x1x2x3x4F119.2649.161180.16960.01p值0.00010.00010.00010.0001333333,|1|1|1iiiiix xxxxxxnkF xxxxkvi=1,2,4,计算结果列于表5.5.2。x2选入。v(3)核实x3是否因x2的选入仍保持显著。经计算,F(x3|x2)=1112.95,p0.0001,从而保
53、留x3。99表5.5.2 x3已选入时的偏F统计量和p值变量x1x2x4偏F34.3243.0424.77p值0.00010.00010.0001232323232323,|,1|,2|,|,1iiiiixxxxxxxxxxxnkF xxxxxxkvi=1,4,结果见表5.5.3。可见,x4选入。v(4)核实x4选入后早先已选入的x2和x3是否还显著,计算偏F统计量F(x2|x3,x4)和F(x3|x2,x4),结果列于表5.5.4。可见,x2和x3皆保留。继续计算100表5.5.3 x2,x3已选入时的偏F统计量和p值变量x1x4偏F12.2734.57p值0.00010.000112341
54、234234123412341234,|,1|,3|,|,1x xxxxxxxxxxxxxxnkF xxxxxxxxkv可得F(x1| x2,x3,x4)=4.72,p=0.0103,故x1也选入。v(5)核实x1选入后原已选入的x2,x3,x4是否还是显著的,计算偏F统计量F(x2|x1,x3,x4), F(x3|x1,x2,x4)和F(x4| x1,x2,x3),结果列于表5.5.5。计算结果表明,已选入的变量无一剔除。101表5.5.5 选入x1后核实x2,x3和x4是否还显著的偏F统计量和p值变量x2x3偏F54.5838.72p值0.00010.0001变量x2x3x4偏F21.9435.5924.90p值0.00010.00010.0001v(6)102表5.5.6 变量选择过程汇总步骤1234变量x3x2x4x1F1180.1643.0434.574.72p值0.00010.00010.00010.0103