信用卡违约数据的线性判别分析

信用卡违约数据的错误率

将LDA(Linear Discriminant Analysis) 模型运用在信用卡客户违约记录数据集,根据一个人的信用卡余额和学生身份预测其「是否违约」

LDA对于10000个训练样本进行拟合,得到混淆矩阵矩阵 (Confusion Matrix):

image.jpg

LDA的预测总错误率很低,image.jpg

然而,「信用卡公司的目标」是想辨别出高违约风险人群

对于真实违约的333个人,LDA的预测错误率高达 !

需要「改进LDA」使其更好满足信用卡公司的需求

改进: 降低信用卡违约判定阈值

贝叶斯分类器的原理是将一个数据点, , 归到后验概率  最大的类别  中, 在判断一名用户违约(default=Yes)或者不违约(default=No)的时候, 我们通常将计算结果:

image.jpg

的客户  归为违约,

我们希望降低把违约者归为不违约的错误概率, 可以通过降低阈值0.5到0.2:

image.jpg

如此,信用卡公司可以「更精准地判定真实的违约者」从而「降低损失」

image.jpg

将违约者归为未违约者的错误率从 image.jpg

但也因此把许多未违约者归为违约者

「利大于弊」:得病未发现比没病误诊的危害更大,因为后者在继续诊断后可以纠正,而前者可能因此错过最佳医治时间,所以要降低前者的错误率!

权衡 Trade-off

image.jpg

我们可以通过降低阈值, 使得违约者被错误分类的比例平稳减少, 「代价便是」未违约者的分类错误率逐渐增加, 如何权衡?

领域知识(Domain Knowledge):

如违约成本的具体信息

模型评估

ROC曲线是一种选择最优模型和同一模型的最优阈值的工具, ROC 可以同时展示出所有可能阈值出现的两类比例:

「真阳性率(True Positive Rate)」: 也称为灵敏度(Sensitivity),即给定阈值下, 违约者被正确判别为违约者的比例

「假阳性率(False Positive Rate)」: 也被称为1-特异度(Specificity), 同样阈值下, 未违约者被错误判别为违约者的比例

image.jpg

AUC是ROC曲线下面的面积, 表示分类器的性能表现,AUC越大, 分类器效果越好

理想的ROC曲线会紧贴左上角, 即高的真阳性率, 低的假阳性率

分类和诊断测试的评价指标

用流行病学的表述方式

“”:“疾病”, 需要被检测的数据

“” : “无病”

image.jpg

FP/N: 未违约者被错误分类的比例

TP/P: 违约者被正确分类的比例

TP/P*:违约者占模型总预测违约者比例

Precision: 模型精确度

TN/N*:未违约者占模型总预测未违约者比例

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:网站SEO优化专员,转转请注明出处:https://xin.chuangxiangniao.com/p/107003.html

(0)
上一篇 2025年2月12日 09:35:10
下一篇 2025年2月12日 09:35:27

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注