diff --git a/reports/scorecard_report/scorecard_report.html b/reports/scorecard_report/scorecard_report.html new file mode 100644 index 0000000..81c1e1f --- /dev/null +++ b/reports/scorecard_report/scorecard_report.html @@ -0,0 +1,283 @@ + + + + +
+ + + +基于GiveMeSomeCredit的贷款申请评分卡建模报告
+ +贷款申请评分卡是一种成熟的应用统计模型,其作用是对申请人做风险评估,识别可能产生逾期的客户并做出决策,包括申请审批和风险定价等,具有较高的准确性和可靠性。
+ +本报告数据来源于GiveMeSomeCredit,通过介绍评分卡典型建模流程,希望读者能够就贷款申请评分模型有了初步了解。
+ +在贷款申请评分卡建模过程中,通常选择逻辑回归(Logistics Regression)算法,该算法的函数作用是将申请人的贷款申请信息综合起来并转化为逾期概率,为决策人员提供了量化风险评估的依据。
+ +
+
+ 审批贷款申请时,假设只有通过或拒绝两种审批结果,审批通过的概率为\(approve\)。审批通过后,客户也只有还款或逾期两种还款结果,逾期的概率为\(overdue\)(还款的概率为\(repay\),\(overdue+repay=1\))。银行就逾期的损失为\(loss\),就还款的收益为\(revenue\)。综合收益为:
+ + \[approve(repay\times revenue-overdue\times loss)\] + +站在决策人员的立场,审批通过的充分条件为综合收益大于零,推导可得:
+ + \[overdue / repay < revenue / loss\] + +就是说,当该申请人发生逾期的概率和还款的概率的比值(定义为逾期还款概率比率,\(odd\))小于收益和损失的比值审批通过。所以,计算申请人的逾期还款概率比率成为首要工作。
+ +假设,已知申请人的贷款申请信息(定义为特征变量的值的集合,\(x=({x}_{1},{x}_{2},\cdot \cdot \cdot {x}_{m)})\)),则该申请人的逾期还款概率比率为:
+ + \[odd(overdue|({x}_{1},{x}_{2},\cdot \cdot \cdot {x}_{m}))=p(overdue|({x}_{1,}{x}_{2},\cdot \cdot \cdot {x}_{m}))/p(repay|({x}_{1},{x}_{2},\cdot \cdot \cdot {x}_{m}))\] + + \[=p(overdue)/p(repay)\times (f({x}_{1,}{x}_{2},\cdot \cdot \cdot {x}_{m}|overdue)/f({x}_{1},{x}_{2},\cdot \cdot \cdot {x}_{m}|repay))\] + + \[=p(overdue)/p(repay)\times f({x}_{1}|overdue)/f({x}_{1}|repay)\times f({x}_{2}|overdue)/f({x}_{2}|repay)\times \cdot \cdot \cdot f({x}_{m}|overdue)/f({x}_{m}|repay)\] + + \[\to F(x)=ln(odd(overdue|({x}_{1},{x}_{2},\cdot \cdot \cdot {x}_{m})))\] + + \[=ln(p(overdue)/p(repay))+ln(f({x}_{1}|overdue)/f({x}_{1}|repay))+\cdot \cdot \cdot ln(f({x}_{m}|overdue)/f({x}_{m}|repay))\] + +定义\(ln(f({x}_{i}|overdue)/f({x}_{i}|repay))\)为特征变量的值的的证据权重\(woe({x}_{i})\),就数据集而言证据权重是评价某个特征变量逾期还款分布情况的较好统计量。
+ +综上所述,在每个特征变量相互独立的情况下,计算申请人的逾期还款概率比率为对数逾期还款样本比率加上各特征变量的值的证据权重,即\(F(x)=a+\sum ^{m}_{i=1} {woe({x}_{i})}\)。
+ +另外,推导可得:
+ + \[odd(overdue|F({x}_{1},{x}_{2},\cdot \cdot \cdot {x}_{m})=F(x))={e}^{F(x)}\] + + \[=p(overdue|({x}_{1},{x}_{2},\cdot \cdot \cdot {x}_{m}))/p(repay|({x}_{1},{x}_{2},\cdot \cdot \cdot {x}_{m}))\] + + \(\to p(overdue|({x}_{1},{x}_{2},\cdot \cdot \cdot {x}_{m}))=1/(1+{e}^{-F(x)})\),刚好是逻辑回归函数! + +将\(F(x)\)由对数比率经线性转化则为贷款申请评分卡!
+ +连接数据库获取原始数据集,目标变量为SeriousDlqin2yrs,特征变量数为10个。数据预览如下:
+ + + +删除目标变量包含缺失值和重复的样本。处理后,样本数为149210份。
+ +在特征变量证据权重编码时,将对缺失值单独作为一箱并纳入模型。
+ +在特征变量证据权重编码时,可消除异常值的影响,故不作异常值处理。
+ +逻辑回归假设之一为特征变量和目标变量之间存在线性关系,但在实际情况多为非线性。通过分箱,可将非线性关系转化为线性。另外,分箱可以减少缺失值和异常值对逻辑回归的影响并提升逻辑回归的鲁棒性。
+ +本次报告使用决策树进行分箱,分箱后使用证据权重编码。以特征变量“Age”为例,其证据权重编码结果如下:
+ + + +由上图可看出,特征变量“Age”分箱后各箱证据权重呈线性关系且单调递减,即随着年龄升高逾期还款概率比率降低。这与贷款申请审批经验符合,其经济稳定性的增强、收入水平的提升、信用记录的积累、消费观念的成熟以及风险管理能力的提升,表现出更低的逾期风险。
+ +决策树分箱说明
+ +信息价值是与证据权重密切相关的指标,可用来评估特征变量的预测能力。通常,选择信息价值大于等于0.1的特征变量。
+ + \[iv=(overduty-repay)\times ln(odd)\] + +信息价值说明
+ +概率是描述随机变量确定性的量度,熵是描述随机变量不确定性的量度。假设\(p(x)\)和\(q(x)\)是逾期和还款的两个概率分布,可使用相对熵表示\(q(x)\)拟合\(p(x)\)所产生的信息损失,公式如下:
+ + \[D(p||q)=\sum {p(x)log(p(x)/q(x))}\] + +相对熵没有对称性,即\(D(p||q)\neq D(q||p)\),如果将两个概率分布之间的相对熵求和,和越大说明两个概率分布的距离越大。该和即为KL距离,公式如下:
+ + \[DistanceKL=\int {(f(p|overduty)-f(p|repay))\times log(f(p|overduty)/f(p|overduty))dx}\] + +上式离散形式即为信息价值。在选择特征变量时,特征变量的信息价值越大说明逾期还款的概率分布的距离越大、区分逾期还款的能力越强。
+ +使用逻辑回归算法需检验其前提条件:
+ +本次报告使用方差扩大因子(Variance Inflation Factor)评估特征变量与其它变量的共线性。通常,淘汰方差扩大因子大于5的特征变量。
+ + \[vif=1/(1-{maximun(r)}^{2})\] + +其中,\(r\)为特征变量与其它特征变量的复相关系数。
+ +有条件的后向步进淘汰特征变量说明
+ +处理后,选择的特征变量数为5个,特征变量预览如下:
+ + + +本次报告中贷款申请评分卡公式为(本次报告控制\(a\)为500,\(b\)为\(50/ln(2)\)):
+ + \[score=a-blog(odd(overdue|({x}_{1},{x}_{2},\cdot \cdot \cdot {x}_{m})))\] + + \[=a-b({\beta }_{0}+{\beta }_{1}woe({x}_{1})+{\beta }_{2}woe({x}_{2})+\cdot \cdot \cdot {\beta }_{m}woe({x}_{m}))\] + +其中,\({\beta }_{i}\)为特征变量的回归系数(\({\beta }_{0}\)基于回归系数分摊至各特征变量)。
+ +以“Age”为例,其评分卡编制结果如下:
+ + + +由上表可看出,\(分数=加权基础分数+加权回归系数\times 证据权重\)。
+ +本次报告使用柯斯和提升统计量评估评分卡,柯斯统计量为55.09,提升统计量为7.28。
+ +柯斯统计量说明
+ +柯斯统计量全称Kolmogorov-Smirnov,常用于评估模型对于目标变量的区分能力。先将总分数划分为若干区间并作为横坐标,再将逾期和还款的累计样本数占比作为纵坐标,即可绘制两条洛伦兹曲线。柯斯统计量就是两条洛伦兹曲线间最大距离。
+ +通常,柯斯统计量小于20不建议使用该评分卡,20~40说明该评分卡区分能力较好、40~50良好、50~60很好、60~75非常好,大于75建议审慎使用。
+ +提升统计量说明
+ +提升统计量,常用于量化评估模型对目标变量的预测能力较随机选择的提升程度。先将总分数划分为若干区间并作为横坐标,再计算各区间的累计逾期样本数占比和累计样本数占比的比值,最大值就是提升统计量。
+ +通常,提升统计量折线图在高位保持若干区间后迅速下降至1时,表示该评分卡区分能力较好。
+ + + +评分卡评价表
+ + + +以分箱[500, 550)为例,该分箱5.61%是逾期客户。假设,审批通过16位客户产生的收益可平衡1位逾期客户的损失,5.61%可作为平衡点,拒绝规则不能低于550,否则损失大于收益。
+ +以拒绝规则<550为例,若选择该拒绝规则,则会拒绝36.53%客户,这部分中15.72%是逾期客户。使用该评分卡后,逾期客户减少85.59%。
+ +| 特征变量名 | + +信息价值 | + +方差扩大因子 | + +回归系数 | + +
|---|---|---|---|
| RevolvingUtilizationOfUnsecuredLines | + +1.04 | + +1.20 | + +0.72 | + +
| NumberOfTimes90DaysLate | + +0.83 | + +1.19 | + +0.64 | + +
| NumberOfTime60-89DaysPastDueNotWorse | + +0.57 | + +1.18 | + +0.55 | + +
| NumberOfTime30-59DaysPastDueNotWorse | + +0.67 | + +1.17 | + +0.69 | + +
| Age | + +0.23 | + +1.08 | + +0.55 | + +
基于RFM模型的客户价值分析报告
+ +在面向客户制定运营策略时,我们希望针对不同的客户推行不同的策略,实现精准化运营,以期获得最大的投入产出比(ROI)。精准化运营的前提是客户分类。通过客户分类,细分出不同的客户群体,对不同的客户群体采取不同的运营策略,合理分配有限的资源,以实现投入产出最大化。
+ +在客户分类中,RFM模型是一个经典的客户分类模型,该模型利用交易环节中最核心的三个变量,即最近消费(Recency)、消费频率(Frequency)和消费金额(Monetray)细分客户群体,从而分析不同群体的客户价值。
+ +本报告使用Kaggle的SuperstoreData作为数据集,探索如何基于RFM模型对客户群体进行细分,以及细分后如何对客户价值进行分析。
+ +数据集共24751份样本。其中,客户ID数据类型为字符串,交易金额为小数,交易日期为日期。
+ +其中,R为最近一次交易日期距最远交易日期间隔,单位为日,数据类型为整数;F为交易笔数,数据类型为整数;M为累计交易金额,数据类型为小数。R、F和M均已正向化。
+ +本报告就R、F和M基于平均值划分为小于等于平均值部分和大于部分:
+ +| 客户分类 | + +R大于R平均值 | + +F大于F平均值 | + +M大于M平均值 | + +
|---|---|---|---|
| 流失客户 | + +否 | + +否 | + +否 | + +
| 一般维持客户 | + +否 | + +是 | + +否 | + + +
| 新客户 | + +是 | + +否 | + +否 | + +
| 潜力客户 | + +是 | + +是 | + +否 | + +
| 重要挽留客户 | + +否 | + +否 | + +是 | + +
| 重要深耕客户 | + +是 | + +否 | + +是 | + +
| 重要唤回客户 | + +否 | + +是 | + +是 | + +
| 重要价值客户 | + +是 | + +是 | + +是 | + +
上图表示近十二个自然月的每个自然月对应的前后滚动十二个自然月的客户数,反映了客户发展的趋势为越来越多。
+ +上图表示各客户分类在R、F和M分布,其中:R越靠近右侧反映了该客户分类越最近交易,F越靠近上侧反映了该客户分类越交易频繁,M越大反映了该客户分类越交易金额大。
+ +上图表示各客户分类的客户占比,反映了重要价值客户、流失客户和新客户这三类客户分类的客户占比较大,是后续分析的重点。
+ +上图表示各客户分类的交易金额占比,反映了重要价值客户、新客户和重要唤回客户这三类客户分类的交易金额占比较大。
+ +上图表示重要价值客户、流失客户和新客户这三类客户分类的客户占比,反映了近期新客户占比提升、重要价值客户和流式客户占比下降,建议针对重要价值客户制定相应运营策略。
+ +上图表示重要价值客户、流失客户和新客户这三类客户分类的近十二个自然月的留存率,反映了重要价值客户较流式客户和新客户黏性大,近期新客户黏性较大。
+ +通过客户分类,我们可以根据客户细分群体制定相应的产品和运营策略和方案:
+ +最近交易、经常交易、交易金额高,建议提供客制化商品/服务以维持客户交易能力和忠诚度。
+ +最近交易、经常交易、交易金额低,建议提供短期、针对性促销方案以期提升客户交易能力。
+ +最近无交易、过往经常交易且交易金额高,建议调查客户流失原因并尝试挽回,加强客户关系管理以期提升客户满意度。
+ +