在机器学习技术兴起之前,金融机构依靠一系列经过时间检验的传统方法来评估信贷风险。这些方法虽然在某些方面不如现代机器学习模型灵活,但其可解释性强、理论基础扎实的特点使其在今天仍然扮演着重要角色。本章将系统介绍专家系统、判别分析、生存分析等经典方法,通过2008年次贷危机的深度剖析,揭示传统模型的优势与局限。我们还将探讨诺贝尔经济学奖得主罗伯特·默顿的结构化信用风险模型,以及使用Copula函数建模违约相关性的高级技术。
完成本章学习后,您将能够:
专家系统是最早应用于信贷风险评估的人工智能技术之一,其核心思想是将人类专家的经验知识编码为计算机可执行的规则。一个完整的信贷审批专家系统通常包含以下组件:
┌─────────────────────────────────────────────┐
│ 用户接口层 │
│ (贷款申请信息输入、审批结果展示) │
└─────────────────┬───────────────────────────┘
│
┌─────────────────▼───────────────────────────┐
│ 推理引擎 │
│ (前向链推理 / 后向链推理) │
└─────────────────┬───────────────────────────┘
│
┌─────────┴─────────┐
│ │
┌───────▼────────┐ ┌────────▼────────┐
│ 知识库 │ │ 事实库 │
│ (IF-THEN规则) │ │ (客户数据) │
└────────────────┘ └─────────────────┘
在信贷风控中,规则通常采用产生式规则(Production Rule)的形式:
IF (条件1 AND 条件2 AND … ) THEN (结论或行动)
例如,一个简单的个人贷款审批规则可能是:
规则1: IF (月收入 > 10000) AND (负债收入比 < 0.4) AND (征信无逾期)
THEN 风险等级 = "低风险"
规则2: IF (风险等级 = "低风险") AND (申请额度 < 月收入×12)
THEN 审批结果 = "通过"
实际应用中,规则的前提条件可能不是完全确定的。引入置信度(Confidence Factor, CF)机制:
\[CF(H, E) = MB(H, E) - MD(H, E)\]其中:
规则的置信度传播遵循以下原则:
Rete算法通过构建规则网络来优化规则匹配效率:
在实际信贷业务中,专家系统通常与其他技术结合使用:
判别分析建立在贝叶斯决策理论之上。对于信贷申请人分类问题,我们希望将申请人分为$K$个风险等级。根据贝叶斯定理:
\[P(Y=k|X=x) = \frac{P(X=x|Y=k) \cdot P(Y=k)}{P(X=x)}\]其中:
| $P(X=x | Y=k)$:似然函数 |
LDA假设各类别的特征服从多元正态分布,且协方差矩阵相同:
\[X|Y=k \sim \mathcal{N}(\mu_k, \Sigma)\]在上述假设下,后验概率的对数比为:
\[\log\frac{P(Y=k|X=x)}{P(Y=l|X=x)} = \log\frac{\pi_k}{\pi_l} - \frac{1}{2}(\mu_k + \mu_l)^T\Sigma^{-1}(\mu_k - \mu_l) + x^T\Sigma^{-1}(\mu_k - \mu_l)\]定义线性判别函数: \(\delta_k(x) = x^T\Sigma^{-1}\mu_k - \frac{1}{2}\mu_k^T\Sigma^{-1}\mu_k + \log\pi_k\)
决策规则:$\hat{Y} = \arg\max_k \delta_k(x)$
使用训练数据估计参数:
QDA允许各类别有不同的协方差矩阵:
\[X|Y=k \sim \mathcal{N}(\mu_k, \Sigma_k)\]此时判别函数变为二次形式:
\[\delta_k(x) = -\frac{1}{2}\log|\Sigma_k| - \frac{1}{2}(x-\mu_k)^T\Sigma_k^{-1}(x-\mu_k) + \log\pi_k\]决策边界是$x$的二次函数,形成二次曲面。
为了在LDA和QDA之间取得平衡,正则化判别分析引入调节参数$\alpha$:
\[\hat{\Sigma}_k(\alpha) = \alpha\hat{\Sigma}_k + (1-\alpha)\hat{\Sigma}\]当$\alpha=0$时退化为LDA,$\alpha=1$时为QDA。
典型的信贷风险判别特征包括:
生存分析原本用于医学研究,后被引入信贷风控领域,用于预测”贷款存活时间”(即到违约的时间)。
生存函数(Survival Function): \(S(t) = P(T > t) = 1 - F(t)\) 表示贷款在时间$t$之后仍然正常的概率。
风险函数(Hazard Function): \(h(t) = \lim_{\Delta t \to 0} \frac{P(t \leq T < t + \Delta t | T \geq t)}{\Delta t}\) 表示在时刻$t$的瞬时违约率。
累积风险函数: \(H(t) = \int_0^t h(u)du = -\log S(t)\)
假设风险率为常数:$h(t) = \lambda$
生存函数:$S(t) = e^{-\lambda t}$
适用于违约风险不随时间变化的情况。
风险函数:$h(t) = \lambda p(\lambda t)^{p-1}$
其中:
适合建模具有”浴盆曲线”特征的风险模式:初期和末期风险高,中期风险低。
Cox模型是半参数模型,不需要假设基准风险函数的具体形式:
\[h(t|x) = h_0(t) \exp(\beta^T x)\]其中:
其中$R(t_i)$是时刻$t_i$的风险集。
AFT模型假设协变量通过加速或减速时间来影响生存时间:
\[\log T = \beta_0 + \beta^T x + \sigma \epsilon\]常用分布:
信贷数据常见删失类型:
Kaplan-Meier估计量: \(\hat{S}(t) = \prod_{t_i \leq t} \left(1 - \frac{d_i}{n_i}\right)\)
其中$d_i$是时刻$t_i$的违约数,$n_i$是风险集大小。
2008年次贷危机暴露了传统风控模型的致命弱点。让我们深入分析当时主流模型的问题:
次贷危机前,风控模型主要基于1990年代至2000年代初的数据,这期间美国房价持续上涨。模型的核心假设是:
\[P(\text{违约}|\text{房价上涨}) \approx 0\]这导致了严重的样本选择偏差(Sample Selection Bias)。
传统模型假设违约事件独立同分布:
\[P(\text{多重违约}) = \prod_{i=1}^n P(\text{违约}_i)\]实际上,系统性风险导致违约高度相关。
David Li的高斯Copula模型曾被广泛用于CDO定价:
\[C(u_1, ..., u_n; \Rho) = \Phi_\Rho(\Phi^{-1}(u_1), ..., \Phi^{-1}(u_n))\]其中$\Rho$是相关系数矩阵。
模型缺陷:
评级机构使用的结构化产品评级模型存在系统性偏差:
实际违约率 vs 评级预测
AAA级CDO:
- 模型预测违约率:0.01%
- 实际违约率(2008-2009):>60%
罗伯特·C·默顿(Robert C. Merton),1997年诺贝尔经济学奖得主,期权定价理论的奠基人之一。他将期权定价理论扩展到信用风险领域,创立了结构化信用风险模型。
默顿将公司股权视为公司资产的看涨期权:
基本设定:
股权价值: \(E_t = V_t \Phi(d_1) - De^{-r(T-t)}\Phi(d_2)\)
其中: \(d_1 = \frac{\ln(V_t/D) + (r + \sigma_V^2/2)(T-t)}{\sigma_V\sqrt{T-t}}\) \(d_2 = d_1 - \sigma_V\sqrt{T-t}\)
违约概率: \(P(\text{违约}) = P(V_T < D) = \Phi(-d_2)\)
KMV公司(后被Moody’s收购)将默顿模型商业化:
违约距离(Distance to Default): \(DD = \frac{\ln(V_t/D) + (\mu - \sigma_V^2/2)(T-t)}{\sigma_V\sqrt{T-t}}\)
预期违约频率(Expected Default Frequency): \(EDF = \Phi(-DD)\)
J.P. Morgan开发的信用风险度量模型,引入信用等级迁移:
转移概率矩阵: \(P = \begin{pmatrix} p_{AA,AA} & p_{AA,A} & \cdots & p_{AA,D} \\ p_{A,AA} & p_{A,A} & \cdots & p_{A,D} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1 \end{pmatrix}\)
主要贡献:
LTCM事件: 1998年,默顿参与创立的长期资本管理公司(LTCM)因俄罗斯金融危机而崩溃,暴露了模型的局限性:
Sklar定理:任何$n$维联合分布函数$F$都可以表示为:
\[F(x_1, ..., x_n) = C(F_1(x_1), ..., F_n(x_n))\]其中$C$是Copula函数,$F_i$是边际分布函数。
\(C^{Ga}(u_1, ..., u_n; \Rho) = \Phi_\Rho(\Phi^{-1}(u_1), ..., \Phi^{-1}(u_n))\)
特点:无尾部相关性
\(C^t(u_1, ..., u_n; \Rho, \nu) = t_{\Rho,\nu}(t_\nu^{-1}(u_1), ..., t_\nu^{-1}(u_n))\)
特点:具有对称的尾部相关性
Clayton Copula(下尾相关): \(C^{Cl}(u, v; \theta) = (u^{-\theta} + v^{-\theta} - 1)^{-1/\theta}\)
下尾相关系数:$\lambda_L = 2^{-1/\theta}$
Gumbel Copula(上尾相关): \(C^{Gu}(u, v; \theta) = \exp(-[(-\ln u)^\theta + (-\ln v)^\theta]^{1/\theta})\)
上尾相关系数:$\lambda_U = 2 - 2^{1/\theta}$
假设违约由共同因子$Z$和个体因子$\epsilon_i$驱动:
\[X_i = \sqrt{\rho}Z + \sqrt{1-\rho}\epsilon_i\]条件违约概率: \(P(\text{违约}_i|Z=z) = \Phi\left(\frac{\Phi^{-1}(PD_i) - \sqrt{\rho}z}{\sqrt{1-\rho}}\right)\)
考虑相关性的时变特征:
\[\rho_t = \omega + \alpha \epsilon_{t-1} \epsilon'_{t-1} + \beta \rho_{t-1}\]\(\hat{\theta} = \arg\max_\theta \sum_{t=1}^T \log c(F_1(x_{1t}), ..., F_n(x_{nt}); \theta)\)
其中$c$是Copula密度函数。
违约损失分布: 使用Monte Carlo模拟:
风险度量:
| CVaR(条件在险价值):$CVaR_\alpha = E[L | L > VaR_\alpha]$ |
本章系统介绍了传统信贷风险评估的三大支柱方法:专家系统提供了基于规则的可解释决策框架,判别分析从统计角度实现了风险分类,生存分析则关注违约的时间维度。通过2008年次贷危机案例,我们看到了传统模型在面对系统性风险时的脆弱性。罗伯特·默顿的结构化模型开创了用期权理论分析信用风险的新思路,而Copula函数为建模复杂的违约相关性提供了灵活工具。
📝 练习5.1:专家系统规则设计 设计一个简化的信用卡申请审批专家系统,包含至少5条规则,覆盖收入、信用历史和负债情况三个维度。说明规则的执行顺序和冲突解决策略。
提示:考虑规则的优先级和置信度传播
📝 练习5.2:LDA分类边界 给定两类数据:违约组均值$\mu_1 = [2, 3]^T$,正常组均值$\mu_2 = [5, 6]^T$,共同协方差矩阵$\Sigma = \begin{pmatrix} 1 & 0.5 \ 0.5 & 1 \end{pmatrix}$,先验概率相等。求LDA的分类边界方程。
提示:利用判别函数$\delta_k(x)$相等的条件
📝 练习5.3:生存分析计算 某银行贷款组合的违约时间服从指数分布,年化违约率$\lambda = 0.05$。计算: (a) 贷款在2年内不违约的概率 (b) 已知贷款已经存活1年,再存活1年的条件概率 (c) 平均违约时间
提示:利用指数分布的无记忆性
🎯 练习5.4:Cox模型应用 某信贷机构使用Cox比例风险模型,基准风险函数$h_0(t) = 0.01t$(Weibull基准),协变量包括年龄($x_1$)和收入($x_2$,万元),估计的系数为$\beta_1 = -0.02$,$\beta_2 = -0.1$。对于一个40岁、月收入2万的申请人,计算其在第3年的瞬时违约风险率。
提示:代入Cox模型公式
🎯 练习5.5:默顿模型违约概率 某公司当前资产价值$V_0 = 100$百万,负债面值$D = 80$百万(1年后到期),资产波动率$\sigma_V = 0.3$,无风险利率$r = 0.05$,资产收益率$\mu = 0.08$。使用默顿模型计算: (a) 风险中性违约概率 (b) 实际违约概率 (c) 信用利差
提示:区分风险中性测度和实际测度
🎯 练习5.6:Copula相关性建模 使用Clayton Copula建模两笔贷款的违约相关性,参数$\theta = 2$。已知两笔贷款的边际违约概率均为5%。计算: (a) 下尾相关系数 (b) 两笔贷款同时违约的概率 (c) 至少一笔违约的概率
提示:利用Clayton Copula的性质
🎯 练习5.7:综合案例分析 次贷危机中,某CDO产品包含100笔次级贷款,使用高斯Copula模型,相关系数$\rho = 0.3$,单笔贷款违约概率10%。危机时相关系数突增至0.8。分析这种变化对预期损失的影响,并提出改进建议。
提示:考虑条件违约概率和系统性因子的影响
🎯 练习5.8:开放性思考题 传统风控模型在数字金融时代面临哪些新挑战?如何将传统方法与大数据、人工智能技术结合,构建更稳健的风控体系?请从数据、模型、监管三个角度展开讨论。
提示:考虑数据隐私、算法黑箱、监管科技等议题