个人的观点如下:
1.所谓预测,首先应该具有如下函数形式y=f(x).从时间角度,预测可以分为两种:
第一种:预测变量X和响应变量Y在同一个时间跨度范围内,用当前已知信息预测当前未知信息,比如在多元线性回归中。用已知的响应变量值信息建立一个模型来预测缺失的响应变量值。
第二种:预测变量X和响应变量Y不在同一个时间跨度范围内,且预测变量X时间发生在前,响应变量Y发生时间在后,此时用预测变量X信息预测响应变量Y,比如logistic回归分析,预测变量X时间一定在响应变量Y之前发生。
2.显然,在贝叶斯判别分析中,如果我们不考虑响应变量Y的缺失情况,响应变量的发生时间应该不会超过预测变量X的发生时间;因为Y是先验事件,那么此时用得到的判别函数去对新的观测值进行判别时,我们就不能把这种归类叫做“预测”,而应该叫做“归类”。也就是说,所得到的“预测”值Y实际上应该是“归类”值。考虑时间因素,实际上这种“归类”值是对响应变量Y的历史信息的一个“总结”,而不是对未来信息的一个“预测”。
3.而在logistic回归分析中,我们可以根据业务需要,人为对Y变量设置一个可以大于X的发生时间,这样一来,所得到的模型应该就是严格意义上的预测模型,因为我们可以用过去的X的信息预测将来Y的发生情况。
不知道这种理解对不对?
4.综述,个人认为把proc discrim过程和proc logistic过程做比较本身就是错误的,但是我看到很多外国文献都是把它们做对比。