发布网友 发布时间:2022-10-12 03:46
共1个回答
热心网友 时间:2023-10-17 18:18
A卡一般可做贷款0-1年的信用分析,A卡中常用的有逻辑回归,AHP
A卡用途:
B卡则是在申请人有了一定行为后,有了较大数据进行的分析,一般为3-5年。(多因素逻辑回归)
B卡用途:
C卡则对数据要求更大,需加入催收后客户反应等属性数据。(多因素逻辑回归)
评分卡计算:在建立标准评分卡之前,我们需要选取几个评分卡参数:基础分值、 PDO(比率翻倍的分值)和好坏比。 这里, 我们取600分为基础分值,PDO为20 (每高20分好坏比翻一倍),好坏比取20。
如果极值占比较高,需要分析是否要分多类
iv值判断标准
pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例
woe:
iv:
等距分箱
卡方分箱
最优分箱:决策树分箱
这里应该是基于不同的指标会作出不同的分箱,基于ks的,或者给予gini系数,信息熵的。
好的特征需要具备哪些优势?
稳定性高,区分度高,差异性大,符合业务逻辑,具备可解释性。
缺失值补充
异常值处理
数据分布分析
优点:简单、稳定、可解释、技术成熟、易于监测和部署
缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
优点:对数据质量要求不高,易解释
缺点:准确度不高
优点:准确度高,稳定性强,泛化能力强,不易过拟合
缺点:不易解释,部署困难,计算量大
其他稳定性指标:评分迁移矩阵、kendall 秩相关系数
ks(10等分):
TP:真实为1且预测为1的数目
FN:真实为1且预测为0的数目
FP:真实为0的且预测为1的数目
TN:真实为0的且预测为0的数目
真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN),
另外一个是假正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN)
十等分之后的: ks=Max(TPR-FPR)
1、区分度:主要有KS和GINI指标,理解KS的定义及用法
2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
3、稳定性:主要有PSI指标,理解PSI的定义及用法
auc和ks的关系?
有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。
拿逻辑回归举例,模型训练完成之后每个样本都会得到一个类概率值(注意是类似的类),把样本按这个类概率值排序后分成10等份,每一份单独计算它的真正率和假正率,然后计算累计概率值,
AUC值就是ROC曲线下放的面积值,而ks值就是ks曲线中两条曲线之间的最大间隔距离
ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高,即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别。
KS值表示了模型将+和-区分开来的能力。值越大,模型的预测准确性越好。一般,KS>0.2即可认为模型有比较好的预测准确性。
roc,auc,
纵轴:TPR=正例分对的概率 = TP/(TP+FN),其实就是查全率
横轴:FPR=负例分错的概率 = FP/(FP+TN)
lift
洛伦兹曲线
验收:测试、等级划分、额度设计、风险定价、ABtest的设计等等
仅适用于申请评分卡
建立申请评分卡的时候,
粗略的看:
策略体系:
规则类型:
参考资料:
信用评分卡模型
信用风险与评分卡研究