financial_risk

第三章:高净值客户画像与特征工程

在金融机构的客户体系中,高净值(High Net Worth, HNW)客户虽然数量占比极小(通常不超过2%),却贡献了超过80%的利润。准确识别潜在高净值客户,不仅关乎银行的盈利能力,更是私人银行业务发展的核心竞争力。本章将从特征工程的角度,系统探讨如何构建高净值客户的多维度画像体系,运用行为分析和社交网络技术精准定位目标客户群体。

3.1 学习目标

完成本章学习后,您将能够:

3.2 HNW客户的多维度特征体系

高净值客户的识别不能仅依赖单一维度的财务指标。根据瑞银集团的研究,一个完整的HNW客户画像需要综合考虑财务、行为、人口统计学等多个维度,构建立体的特征体系。

3.2.1 财务特征维度

资产配置结构

高净值客户的资产配置呈现明显的多元化特征。我们定义资产配置向量:

\[\mathbf{A} = [a_1, a_2, ..., a_n]^T\]

其中 $a_i$ 表示第 $i$ 类资产的持有比例,满足 $\sum_{i=1}^n a_i = 1$。

典型的资产类别包括:

资产集中度指标(Herfindahl-Hirschman Index, HHI)可以量化配置的分散程度:

\[HHI = \sum_{i=1}^n a_i^2\]

HHI值越低,表示资产配置越分散,这是HNW客户的典型特征。经验阈值:HHI < 0.3 可作为初步筛选条件。

收入来源多样性

高净值客户通常拥有多元化的收入来源。我们使用香农熵(Shannon Entropy)来度量收入多样性:

\[H(I) = -\sum_{j=1}^m p_j \log_2 p_j\]

其中 $p_j$ 是第 $j$ 种收入来源占总收入的比例。常见收入类型:

当 $H(I) > 1.5$ 时,表明客户具有较高的收入多样性,这是HNW客户的重要特征。

投资偏好与风险承受度

使用夏普比率(Sharpe Ratio)的个性化版本评估客户的风险调整收益:

\[SR_i = \frac{R_i - R_f}{\sigma_i}\]

其中:

HNW客户的典型特征:$SR > 0.8$,表明其具有较强的投资能力和风险管理意识。

3.2.2 行为特征维度

交易频率与规模分布

高净值客户的交易行为呈现”低频高额”特点。定义交易强度函数:

\[\lambda(t) = \frac{N(t)}{t} \cdot \bar{V}\]

其中:

交易金额分布通常服从幂律分布(Power Law):

\[P(V > v) \sim v^{-\alpha}\]

对于HNW客户,幂律指数 $\alpha$ 通常在1.5-2.5之间,表明存在大额交易的厚尾特征。

产品使用广度

定义产品使用广度指标:

\[B = \frac{|\mathcal{P}_{\text{used}}|}{|\mathcal{P}_{\text{total}}|} \times \sum_{p \in \mathcal{P}_{\text{used}}} w_p\]

其中:

HNW客户倾向于使用更多样化和复杂的金融产品,典型特征:$B > 0.6$。

渠道偏好分析

构建渠道使用矩阵 $\mathbf{C} \in \mathbb{R}^{n \times m}$,其中 $C_{ij}$ 表示客户 $i$ 在渠道 $j$ 的使用频率。通过矩阵分解:

\[\mathbf{C} \approx \mathbf{U} \mathbf{\Sigma} \mathbf{V}^T\]

可以识别出客户的渠道偏好模式。HNW客户通常表现为:

3.2.3 人口统计学特征

年龄与财富积累模型

财富积累遵循生命周期理论,可用修正的Modigliani模型描述:

\[W(t) = \int_0^t [Y(s) - C(s)] e^{r(t-s)} ds\]

其中:

HNW客户的财富积累曲线呈现三个阶段:

  1. 积累期(30-45岁):$\frac{dW}{dt} > 0$ 且加速增长
  2. 巩固期(45-60岁):$\frac{dW}{dt} > 0$ 但增速放缓
  3. 传承期(60岁以上):关注财富保值与代际传承

教育与职业分布

HNW客户的教育背景呈现高度集中特征:

职业分布的信息熵:

\[H(\text{occupation}) = -\sum_{k} p_k \log p_k\]

其中 $p_k$ 是职业类别 $k$ 的占比。HNW群体中,企业主、高管、专业人士三类占比超过70%。

3.2.4 特征选择与降维技术

信息增益(Information Gain)

在HNW客户识别中,使用信息增益选择最具区分度的特征:

\[IG(S, A) = H(S) - \sum_{v \in \text{Values}(A)} \frac{|S_v|}{|S|} H(S_v)\]

其中:

实践中,信息增益排名前20的特征通常包括:

  1. 总资产规模(AUM)
  2. 年化投资收益率
  3. 产品持有数量
  4. 跨境交易频率
  5. 私人银行服务使用情况

主成分分析(PCA)降维

对于高维特征空间,使用PCA进行降维:

\[\mathbf{Y} = \mathbf{X} \mathbf{W}\]

其中 $\mathbf{W}$ 是由协方差矩阵的特征向量组成的投影矩阵。

选择主成分的准则:

在HNW客户识别场景中,前5个主成分通常可以解释超过80%的方差,分别对应:

  1. 财富规模因子
  2. 投资活跃度因子
  3. 风险偏好因子
  4. 产品复杂度因子
  5. 生命周期因子

3.3 行为模式分析与交易特征提取

客户的交易行为蕴含着丰富的信息,通过时序分析和模式识别技术,可以挖掘出隐藏在海量交易数据背后的高价值客户特征。

3.3.1 时序行为模式识别

周期性交易模式

高净值客户的交易往往呈现明显的周期性特征。使用傅里叶变换识别周期性模式:

\[X(f) = \int_{-\infty}^{\infty} x(t) e^{-2\pi ift} dt\]

其中 $x(t)$ 是交易金额的时间序列,$X(f)$ 是频域表示。

通过功率谱密度(Power Spectral Density)分析:

\[PSD(f) = |X(f)|^2\]

可以识别出主要的交易周期。HNW客户的典型周期包括:

周期强度指标:

\[SI = \frac{\max(PSD)}{\text{mean}(PSD)}\]

当 $SI > 3$ 时,表明存在显著的周期性模式。

趋势分析与异常检测

使用STL(Seasonal and Trend decomposition using Loess)分解交易序列:

\[Y_t = T_t + S_t + R_t\]

其中:

趋势成分的斜率可以反映客户财富增长速度:

\[\text{Growth Rate} = \frac{dT_t}{dt}\]

异常交易检测使用孤立森林(Isolation Forest)算法,异常分数:

\[s(x, n) = 2^{-\frac{E(h(x))}{c(n)}}\]

其中:

HNW客户的异常交易通常包括:

行为序列建模

使用隐马尔可夫模型(HMM)建模客户状态转移:

\[\lambda = (\pi, A, B)\]

其中:

定义客户的五种隐藏状态:

  1. 休眠期:极少交易活动
  2. 探索期:尝试多种产品
  3. 活跃期:频繁投资交易
  4. 稳定期:规律性资产配置
  5. 流失期:交易逐渐减少

状态转移概率矩阵示例:

       休眠  探索  活跃  稳定  流失
休眠 [ 0.7   0.2   0.05  0.03  0.02]
探索 [ 0.1   0.4   0.3   0.15  0.05]
活跃 [ 0.05  0.1   0.5   0.3   0.05]
稳定 [ 0.05  0.05  0.2   0.65  0.05]
流失 [ 0.1   0.05  0.05  0.1   0.7 ]
HNW客户的典型特征:长期处于”活跃期”或”稳定期”状态,状态转移概率 $P(\text{活跃} \text{活跃}) > 0.5$。

3.3.2 交易网络特征

资金流向分析

构建客户的资金流向图 $G = (V, E)$,其中:

定义资金流向矩阵 $\mathbf{F} \in \mathbb{R}^{n \times n}$,其中 $F_{ij}$ 表示从节点 $i$ 到节点 $j$ 的资金流量。

资金集中度指标:

\[CC_i = \frac{\max_j F_{ij}}{\sum_j F_{ij}}\]

HNW客户的资金流向特征:

交易对手特征

交易对手质量评分:

\[Q_{\text{counterparty}} = \sum_{j \in \mathcal{C}} w_j \cdot \text{score}(j)\]

其中:

HNW客户倾向于与高质量交易对手互动:

跨境交易模式

跨境交易复杂度指标:

\[\text{Cross-border Index} = \alpha \cdot N_{\text{countries}} + \beta \cdot V_{\text{forex}} + \gamma \cdot F_{\text{cross}}\]

其中:

HNW客户的跨境特征:

3.3.3 RFM模型在HNW识别中的应用

传统RFM模型

RFM(Recency-Frequency-Monetary)模型的基础评分:

\[\text{RFM Score} = w_R \cdot R + w_F \cdot F + w_M \cdot M\]

其中:

标准化处理:

\[R' = \frac{1}{1 + \log(1 + \text{days since last transaction})}\] \[F' = \frac{\log(1 + \text{transaction count})}{\log(1 + \max(\text{transaction count}))}\] \[M' = \frac{\log(1 + \text{total amount})}{\log(1 + \max(\text{total amount}))}\]

RFMTC扩展模型

针对HNW客户识别,扩展RFM模型为RFMTC:

\[\text{RFMTC Score} = w_R \cdot R + w_F \cdot F + w_M \cdot M + w_T \cdot T + w_C \cdot C\]

新增维度:

权重优化使用梯度下降:

\[w^{(t+1)} = w^{(t)} - \eta \nabla_w L(w)\]

损失函数:

\[L(w) = \sum_{i \in \text{HNW}} (1 - \text{Score}_i)^2 + \sum_{j \in \text{non-HNW}} \text{Score}_j^2\]

动态RFM评分

考虑时间衰减的动态RFM:

\[\text{Dynamic RFM} = \sum_{t=1}^{T} e^{-\lambda(T-t)} \cdot \text{RFM}_t\]

其中:

这种方法能够捕捉客户价值的动态变化,更准确地识别潜在的HNW客户。

实践应用中的阈值设定:

3.4 社交网络分析在客户识别中的应用

金融社交网络揭示了客户之间的隐性关系,这些关系往往比显性的财务指标更能预示客户的潜在价值。通过分析转账网络、共同投资关系和担保链条,可以发现隐藏的高净值客户群体。

3.4.1 社交网络构建

转账网络

构建有向加权图 $G_T = (V, E, W)$:

邻接矩阵定义:

\[A_{ij} = \sum_{t=1}^{T} \text{amount}_{ij}^{(t)} \cdot e^{-\lambda(T-t)}\]

其中时间衰减因子 $e^{-\lambda(T-t)}$ 确保近期交易权重更高。

网络密度指标:

\[\rho = \frac{|E|}{|V|(|V|-1)}\]

HNW客户群体的转账网络特征:

共同投资网络

基于产品持有关系构建二部图(Bipartite Graph):

\[G_I = (U \cup P, E)\]

其中:

投影到客户空间得到共同投资网络:

\[w_{ij} = \sum_{p \in P} \frac{\delta_{ip} \cdot \delta_{jp}}{\sqrt{k_p}}\]

其中:

相似度度量使用余弦相似度:

\[\text{sim}(i,j) = \frac{\mathbf{p}_i \cdot \mathbf{p}_j}{|\mathbf{p}_i| \cdot |\mathbf{p}_j|}\]

HNW客户倾向于形成”投资俱乐部”,特征是:

担保关系网络

担保网络具有特殊的风险传播特性:

\[G_G = (V, E_G, R)\]

其中 $R$ 表示担保金额占比。

风险传播模型:

\[r_i^{(t+1)} = r_i^{(0)} + \beta \sum_{j \in N(i)} w_{ji} \cdot r_j^{(t)}\]

其中:

担保链条长度分布:

\[P(l) \sim l^{-\gamma}\]

HNW客户在担保网络中的特征:

3.4.2 网络特征提取

中心性度量

度中心性(Degree Centrality)

\[C_D(i) = \frac{k_i}{n-1}\]

其中 $k_i$ 是节点 $i$ 的度数。区分入度和出度:

\[C_D^{\text{in}}(i) = \frac{k_i^{\text{in}}}{n-1}, \quad C_D^{\text{out}}(i) = \frac{k_i^{\text{out}}}{n-1}\]

介数中心性(Betweenness Centrality)

\[C_B(i) = \sum_{s \neq i \neq t} \frac{\sigma_{st}(i)}{\sigma_{st}}\]

其中:

特征向量中心性(Eigenvector Centrality)

\[x_i = \frac{1}{\lambda} \sum_{j \in N(i)} x_j\]

即满足 $\mathbf{Ax} = \lambda \mathbf{x}$,其中 $\lambda$ 是最大特征值。

PageRank算法的金融应用:

\[PR(i) = \frac{1-d}{n} + d \sum_{j \in M(i)} \frac{PR(j)}{L(j)}\]

其中:

HNW客户的中心性特征:

社区发现算法

Louvain算法优化模块度:

\[Q = \frac{1}{2m} \sum_{ij} \left[ A_{ij} - \frac{k_i k_j}{2m} \right] \delta(c_i, c_j)\]

其中:

谱聚类(Spectral Clustering)

  1. 计算归一化拉普拉斯矩阵: \(\mathbf{L} = \mathbf{I} - \mathbf{D}^{-1/2}\mathbf{A}\mathbf{D}^{-1/2}\)

  2. 计算最小的 $k$ 个特征值对应的特征向量

  3. 对特征向量进行K-means聚类

HNW社区的典型规模:

网络传播模型

信息传播使用独立级联模型(Independent Cascade Model):

\[P(v \text{ activated at } t+1) = 1 - \prod_{u \in N_a(v)} (1 - p_{uv})\]

其中:

影响力评分:

\[\text{Influence}(S) = \mathbb{E}[|\sigma(S)|]\]

其中 $\sigma(S)$ 是种子集 $S$ 最终影响的节点集。

HNW客户的影响力特征:

3.4.3 关系强度量化

综合关系强度

定义多维度关系强度:

\[S_{ij} = w_1 \cdot S_{ij}^{\text{freq}} + w_2 \cdot S_{ij}^{\text{amount}} + w_3 \cdot S_{ij}^{\text{duration}} + w_4 \cdot S_{ij}^{\text{reciprocal}}\]

各维度计算:

交易频率强度

\[S_{ij}^{\text{freq}} = \frac{\log(1 + f_{ij})}{\log(1 + \max_k f_{ik})}\]

金额强度

\[S_{ij}^{\text{amount}} = \frac{\text{amount}_{ij}^{0.5}}{\max_k \text{amount}_{ik}^{0.5}}\]

关系持续时间

\[S_{ij}^{\text{duration}} = 1 - e^{-\lambda \cdot T_{ij}}\]

其中 $T_{ij}$ 是关系持续月数。

互惠性分析

\[S_{ij}^{\text{reciprocal}} = \frac{2 \cdot \min(f_{ij}, f_{ji})}{f_{ij} + f_{ji}}\]

关系类型识别

使用聚类分析识别关系类型:

  1. 家族关系:高频率、高互惠、长期稳定
  2. 商业伙伴:大额、低频、单向为主
  3. 投资圈子:中频、中额、多边关系
  4. 临时关系:低频、时间短、金额波动大

关系稳定性指标:

\[\text{Stability}_{ij} = 1 - \frac{\text{std}(\text{monthly\_amount}_{ij})}{\text{mean}(\text{monthly\_amount}_{ij})}\]

关系价值评估

关系的经济价值:

\[V_{ij} = \text{Direct}_{ij} + \gamma \cdot \text{Indirect}_{ij}\]

其中:

网络效应价值:

\[\text{Network Value}_i = \sum_{j \in N(i)} V_{ij} \cdot (1 + \alpha \cdot |N(j)|^{\beta})\]

其中 $\alpha$ 和 $\beta$ 是网络效应参数。

3.5 案例研究:瑞士银行的私人银行业务模式

背景介绍

瑞士银行(UBS)的私人银行部门管理着超过2.6万亿美元的资产,是全球最大的私人财富管理机构之一。其成功的核心在于精准的HNW客户识别和分层服务体系。

客户分层体系

瑞银将客户分为五个层级:

  1. 大众富裕层(Mass Affluent):可投资资产 $100万 - $500万美元
  2. 富裕层(Affluent):$500万 - $1000万美元
  3. 高净值(HNW):$1000万 - $3000万美元
  4. 超高净值(UHNW):$3000万 - $1亿美元
  5. 超级富豪(Ultra-Wealthy):超过$1亿美元

每个层级对应不同的服务模式和产品组合。

特征工程实践

瑞银的HNW识别模型包含超过200个特征,主要类别:

财务特征(权重35%)

行为特征(权重30%)

关系特征(权重20%)

生命事件(权重15%)

识别算法

瑞银采用集成学习方法:

\[\text{Score} = 0.4 \times \text{XGBoost} + 0.3 \times \text{Random Forest} + 0.2 \times \text{Neural Network} + 0.1 \times \text{Expert Rules}\]

模型性能指标:

营销转化策略

识别潜在HNW客户后的转化流程:

  1. 初步接触:个性化邀请参加投资研讨会
  2. 需求分析:一对一财富规划咨询
  3. 方案设计:定制化投资组合建议
  4. 关系深化:引入家族办公室服务
  5. 长期维护:季度投资回顾和调整

转化率数据:

经验教训

  1. 数据质量至关重要:瑞银投入大量资源清洗和整合数据
  2. 本地化调整:不同地区的HNW特征差异显著
  3. 隐私保护:严格的数据使用政策和客户授权流程
  4. 人机结合:算法识别 + 理财顾问判断的双重验证
  5. 动态更新:每季度重新训练模型,适应市场变化

3.6 历史人物:J.P.摩根与私人银行业的起源

人物背景

约翰·皮尔庞特·摩根(John Pierpont Morgan, 1837-1913)不仅是美国金融史上最具影响力的银行家,更是现代私人银行业务模式的奠基人。他创立的J.P.摩根公司开创了为超高净值客户提供定制化金融服务的先河。

私人银行理念的形成

摩根在19世纪末提出了革命性的银行服务理念:

  1. 客户分层服务:首次将客户按财富等级分类
    • 普通储户:标准化服务
    • 富裕客户:专属经理服务
    • 超级富豪:董事长亲自服务
  2. 关系银行模式:”Character is the basis of credit”
    • 重视客户的品格甚于抵押品
    • 建立长期信任关系
    • 家族式服务传承
  3. 综合金融服务
    • 投资银行业务
    • 财富管理
    • 艺术品投资顾问
    • 遗产规划

客户识别方法论

摩根识别高价值客户的”三C原则”至今仍被沿用:

Character(品格)

Capacity(能力)

Capital(资本)

数据驱动的早期实践

尽管没有现代计算机,摩根银行已经建立了系统的客户信息管理:

  1. 客户档案系统
    • 详细的家族谱系
    • 商业关系网络图
    • 投资历史记录
    • 社交活动记录
  2. 信用评级体系
    • 内部评级从A到E
    • 季度更新评级
    • 基于多维度评估
  3. 关系网络分析
    • 董事会联锁关系
    • 商业伙伴关系
    • 社交俱乐部成员关系

经典案例:1907年金融恐慌

1907年金融恐慌期间,摩根展示了其客户网络的力量:

这次事件证明了高净值客户网络在金融稳定中的关键作用。

遗产与启示

摩根的理念对现代HNW客户识别的启示:

  1. 定性与定量结合:不能仅依赖数据,人际判断同样重要
  2. 长期关系价值:客户终身价值远超单次交易
  3. 网络效应:一个HNW客户可能带来整个高价值网络
  4. 声誉资本:银行自身的声誉是吸引HNW客户的关键
  5. 定制化服务:标准化产品无法满足超高净值客户需求

3.7 高级话题:因果推断在客户价值评估中的应用

问题背景

传统的相关性分析可能导致错误的客户价值判断。例如,使用私人银行服务的客户平均资产更高,但这是因为:

因果推断方法帮助我们识别真正的因果关系。

潜在结果框架(Potential Outcomes Framework)

定义客户 $i$ 的潜在结果:

个体处理效应(Individual Treatment Effect):

\[\tau_i = Y_i(1) - Y_i(0)\]

平均处理效应(Average Treatment Effect):

\[ATE = \mathbb{E}[\tau_i] = \mathbb{E}[Y_i(1)] - \mathbb{E}[Y_i(0)]\]

倾向得分匹配(Propensity Score Matching)

倾向得分定义:

\[e(X_i) = P(T_i = 1 | X_i)\]

其中 $T_i$ 是处理变量(是否为HNW客户),$X_i$ 是协变量向量。

使用逻辑回归估计倾向得分:

\[\log\frac{e(X_i)}{1-e(X_i)} = \beta_0 + \beta^T X_i\]

匹配后的处理效应估计:

\[\hat{\tau}_{PSM} = \frac{1}{N_1} \sum_{i:T_i=1} \left[ Y_i - \sum_{j:T_j=0} w_{ij} Y_j \right]\]

其中权重 $w_{ij}$ 基于倾向得分的相似度。

双重差分法(Difference-in-Differences)

对于面板数据,使用DID识别成为HNW客户的因果效应:

\[Y_{it} = \alpha + \beta \cdot \text{HNW}_i + \gamma \cdot \text{Post}_t + \delta \cdot (\text{HNW}_i \times \text{Post}_t) + \epsilon_{it}\]

其中:

平行趋势假设检验:

\[Y_{it} = \alpha_i + \sum_{k \neq -1} \beta_k \cdot \mathbb{1}(t = k) \cdot \text{HNW}_i + \gamma_t + \epsilon_{it}\]

若 $\beta_k = 0$ 对所有 $k < -1$,则平行趋势假设成立。

工具变量法(Instrumental Variables)

寻找影响HNW身份但不直接影响结果的工具变量 $Z$:

第一阶段: \(\text{HNW}_i = \pi_0 + \pi_1 Z_i + \pi_2 X_i + \nu_i\)

第二阶段: \(Y_i = \beta_0 + \beta_1 \widehat{\text{HNW}}_i + \beta_2 X_i + \epsilon_i\)

有效工具变量的条件:

  1. 相关性:$\text{Cov}(Z, \text{HNW}) \neq 0$
  2. 排他性:$\text{Cov}(Z, \epsilon) = 0$

实践中的工具变量例子:

机器学习因果推断

因果森林(Causal Forest)

\[\hat{\tau}(x) = \frac{1}{|L(x)|} \sum_{i \in L(x)} Y_i^{(1)} - \frac{1}{|L(x)|} \sum_{i \in L(x)} Y_i^{(0)}\]

其中 $L(x)$ 是特征为 $x$ 的叶节点。

双重机器学习(Double Machine Learning)

\(Y = \theta \cdot T + g(X) + \epsilon\) \(T = m(X) + \nu\)

使用交叉拟合估计 $g(X)$ 和 $m(X)$:

\[\hat{\theta} = \frac{\sum_i (Y_i - \hat{g}_{-i}(X_i))(T_i - \hat{m}_{-i}(X_i))}{\sum_i (T_i - \hat{m}_{-i}(X_i))^2}\]

应用实例:评估VIP服务的真实价值

某银行想评估VIP服务对客户资产增长的因果效应:

  1. 数据准备
    • 处理组:2020年升级为VIP的客户(n=1,000)
    • 控制组:符合条件但未升级的客户(n=5,000)
    • 观察期:2018-2022年
  2. 倾向得分估计
    特征:年龄、收入、初始资产、产品数量、交易频率
    倾向得分模型:XGBoost
    AUC = 0.82
    
  3. 匹配与平衡性检验
    • 1:1最近邻匹配
    • 标准化偏差 < 0.1 for all covariates
    • 共同支撑区域:[0.15, 0.85]
  4. 因果效应估计
    • ATT(Average Treatment on Treated)= 23.5%
    • 95% CI:[18.2%, 28.8%]
    • 即VIP服务使客户资产增长提高23.5%
  5. 异质性分析: 使用因果森林发现:
    • 年轻客户(<40岁):效应更大(30%+)
    • 初始资产较低者:效应更显著
    • 企业主:效应最明显(35%+)

实践建议

  1. 选择偏差无处不在:高价值客户的自选择必须考虑
  2. 时间因素关键:客户价值的因果评估需要纵向数据
  3. 异质性重要:不同客户群体的处理效应差异很大
  4. A/B测试优先:有条件时,随机实验仍是金标准
  5. 多方法验证:使用多种因果推断方法交叉验证结果

3.8 本章小结

本章系统介绍了高净值客户识别的特征工程方法论。核心要点包括:

关键概念回顾

  1. 多维度特征体系
    • 财务特征:资产配置、收入多样性、风险偏好
    • 行为特征:交易模式、产品使用、渠道偏好
    • 人口统计学:年龄、教育、职业、生命周期
    • 关系网络:社交网络、商业关系、家族联系
  2. 核心模型与算法
    • RFM及其扩展模型(RFMTC)
    • 时序行为分析(FFT、STL分解、HMM)
    • 社交网络分析(中心性、社区发现、传播模型)
    • 因果推断方法(PSM、DID、IV)
  3. 关键公式汇总
    • 资产集中度:$HHI = \sum_{i=1}^n a_i^2$
    • 收入多样性:$H(I) = -\sum_{j=1}^m p_j \log_2 p_j$
    • 网络中心性:$C_B(i) = \sum_{s \neq i \neq t} \frac{\sigma_{st}(i)}{\sigma_{st}}$
    • 因果效应:$ATE = \mathbb{E}[Y_i(1)] - \mathbb{E}[Y_i(0)]$

实践要点

  1. 特征工程占模型效果的70%以上贡献
  2. 领域知识与数据驱动需要平衡结合
  3. 动态特征比静态特征更有预测力
  4. 网络特征是识别潜在HNW的关键
  5. 因果推断帮助评估真实客户价值

3.9 练习题

📝 基础题

题目1:某客户的月度收入来源如下:工资收入占60%,投资收益占25%,房租收入占15%。请计算该客户的收入多样性指数(香农熵)。

提示(Hint) 使用香农熵公式:$H = -\sum p_i \log_2 p_i$

🎯 挑战题

题目4:设计一个综合评分模型,整合RFM、社交网络和财务特征三个维度识别HNW客户。要求:

  1. 定义各维度的关键指标(至少3个)
  2. 设计指标标准化方法
  3. 提出权重分配方案
  4. 给出阈值设定建议
提示(Hint) 考虑不同维度指标的量纲差异;权重可以通过层次分析法或机器学习优化
点击查看答案 **综合评分模型设计**: 1. 关键指标体系: - RFM维度:R(最近交易时间)、F(年交易频率)、M(年交易总额) - 社交网络:度中心性、PageRank值、社区质量分 - 财务特征:总资产、收入多样性、投资收益率 2. 标准化方法: - Min-Max标准化:$x' = (x - x_{min})/(x_{max} - x_{min})$ - Z-score标准化:$x' = (x - \mu)/\sigma$ - 百分位标准化:$x' = \text{percentile}(x)/100$ 3. 权重分配(AHP法): - 财务特征:45%(总资产20%、收入15%、收益率10%) - RFM:30%(M为15%、F为10%、R为5%) - 社交网络:25%(PageRank 12%、中心性8%、社区5%) 4. 阈值设定: - 潜在HNW:综合得分 > 0.6 - 标准HNW:综合得分 > 0.75 - 超高净值:综合得分 > 0.9 综合得分公式: $$Score = 0.45 \times S_{fin} + 0.30 \times S_{RFM} + 0.25 \times S_{net}$$

题目5:某银行有10000个客户的交易网络数据。设计一个算法,找出最有可能是隐藏HNW客户的Top 100人。要求考虑:

  1. 直接财务指标可能不完整
  2. 社交网络的传递性
  3. 计算效率
提示(Hint) 可以使用图算法中的标签传播或PageRank思想
点击查看答案 **隐藏HNW识别算法**: ```python Algorithm: Hidden HNW Detection Input: Graph G(V, E), known_HNW set, k=100 Output: Top k potential HNW customers 1. 初始化: - 为已知HNW客户赋值 score = 1.0 - 其他客户 score = 0.0 2. 传播过程(迭代5次): for iteration in range(5): new_scores = {} for node in V: if node in known_HNW: new_scores[node] = 1.0 else: # 从邻居传播分数 neighbor_sum = 0 for neighbor in G.neighbors(node): weight = G.edge_weight(node, neighbor) neighbor_sum += scores[neighbor] * weight # 考虑网络结构特征 degree_factor = log(1 + G.degree(node)) clustering_factor = G.clustering_coefficient(node) new_scores[node] = 0.6 * neighbor_sum + 0.2 * degree_factor + 0.2 * clustering_factor scores = new_scores 3. 后处理: - 移除已知HNW客户 - 按score降序排序 - 返回Top 100 时间复杂度:O(5 * |E|) = O(|E|) 空间复杂度:O(|V|) ``` 关键优化: 1. 使用稀疏矩阵存储网络 2. 只迭代5次避免过度传播 3. 并行计算每个节点的分数

题目6:使用因果推断评估”私人银行服务”对客户资产增长的真实影响。给定1000个客户2年的面板数据,其中200人在第二年升级为私人银行客户。设计完整的分析流程。

提示(Hint) 考虑使用DID或PSM方法,注意检验假设条件
点击查看答案 **因果推断分析流程**: 1. **数据准备**: - 处理组:200个升级客户 - 控制组:800个未升级客户 - 变量:资产变化、收入、年龄、职业等 2. **倾向得分匹配(PSM)**: ```python # Step 1: 估计倾向得分 logit_model: upgrade ~ income + assets_t0 + age + occupation propensity_scores = predict(logit_model) # Step 2: 检查共同支撑 common_support = [0.1, 0.9] # 重叠区域 # Step 3: 1:1匹配 matched_pairs = nearest_neighbor_matching(propensity_scores) # Step 4: 平衡性检验 standardized_bias < 0.1 for all covariates ``` 3. **双重差分(DID)分析**: ``` Model: assets_growth = α + β₁·upgrade + β₂·post + β₃·(upgrade×post) + controls + ε 其中: - β₃ 是DID估计量(因果效应) - 预期 β₃ > 0 表示正向影响 ``` 4. **平行趋势检验**: ``` Event study: assets_t = α + Σ βₖ·1(period=k)·upgrade + γₜ + ε 检验 β₋₂ = β₋₁ = 0(升级前趋势平行) ``` 5. **稳健性检验**: - 改变匹配方法(卡尺匹配、核匹配) - 子样本分析(按年龄、初始资产分组) - 安慰剂检验(随机分配处理) 6. **结果解释**: 假设得到 β₃ = 0.15 (p < 0.01) - 私人银行服务使资产增长率提高15% - 考虑选择偏差后的真实效应 - 需要讨论外部有效性
点击查看答案 $$H = -(0.6 \log_2 0.6 + 0.25 \log_2 0.25 + 0.15 \log_2 0.15)$$ $$H = -(0.6 \times (-0.737) + 0.25 \times (-2) + 0.15 \times (-2.737))$$ $$H = -(-0.442 - 0.5 - 0.411) = 1.353$$ 收入多样性指数为1.353,接近1.5的HNW阈值,表明该客户具有一定的收入多样性。

🎯 挑战题

题目4:设计一个综合评分模型,整合RFM、社交网络和财务特征三个维度识别HNW客户。要求:

  1. 定义各维度的关键指标(至少3个)
  2. 设计指标标准化方法
  3. 提出权重分配方案
  4. 给出阈值设定建议
提示(Hint) 考虑不同维度指标的量纲差异;权重可以通过层次分析法或机器学习优化
点击查看答案 **综合评分模型设计**: 1. 关键指标体系: - RFM维度:R(最近交易时间)、F(年交易频率)、M(年交易总额) - 社交网络:度中心性、PageRank值、社区质量分 - 财务特征:总资产、收入多样性、投资收益率 2. 标准化方法: - Min-Max标准化:$x' = (x - x_{min})/(x_{max} - x_{min})$ - Z-score标准化:$x' = (x - \mu)/\sigma$ - 百分位标准化:$x' = \text{percentile}(x)/100$ 3. 权重分配(AHP法): - 财务特征:45%(总资产20%、收入15%、收益率10%) - RFM:30%(M为15%、F为10%、R为5%) - 社交网络:25%(PageRank 12%、中心性8%、社区5%) 4. 阈值设定: - 潜在HNW:综合得分 > 0.6 - 标准HNW:综合得分 > 0.75 - 超高净值:综合得分 > 0.9 综合得分公式: $$Score = 0.45 \times S_{fin} + 0.30 \times S_{RFM} + 0.25 \times S_{net}$$

题目5:某银行有10000个客户的交易网络数据。设计一个算法,找出最有可能是隐藏HNW客户的Top 100人。要求考虑:

  1. 直接财务指标可能不完整
  2. 社交网络的传递性
  3. 计算效率
提示(Hint) 可以使用图算法中的标签传播或PageRank思想
点击查看答案 **隐藏HNW识别算法**: ```python Algorithm: Hidden HNW Detection Input: Graph G(V, E), known_HNW set, k=100 Output: Top k potential HNW customers 1. 初始化: - 为已知HNW客户赋值 score = 1.0 - 其他客户 score = 0.0 2. 传播过程(迭代5次): for iteration in range(5): new_scores = {} for node in V: if node in known_HNW: new_scores[node] = 1.0 else: # 从邻居传播分数 neighbor_sum = 0 for neighbor in G.neighbors(node): weight = G.edge_weight(node, neighbor) neighbor_sum += scores[neighbor] * weight # 考虑网络结构特征 degree_factor = log(1 + G.degree(node)) clustering_factor = G.clustering_coefficient(node) new_scores[node] = 0.6 * neighbor_sum + 0.2 * degree_factor + 0.2 * clustering_factor scores = new_scores 3. 后处理: - 移除已知HNW客户 - 按score降序排序 - 返回Top 100 时间复杂度:O(5 * |E|) = O(|E|) 空间复杂度:O(|V|) ``` 关键优化: 1. 使用稀疏矩阵存储网络 2. 只迭代5次避免过度传播 3. 并行计算每个节点的分数

题目6:使用因果推断评估”私人银行服务”对客户资产增长的真实影响。给定1000个客户2年的面板数据,其中200人在第二年升级为私人银行客户。设计完整的分析流程。

提示(Hint) 考虑使用DID或PSM方法,注意检验假设条件
点击查看答案 **因果推断分析流程**: 1. **数据准备**: - 处理组:200个升级客户 - 控制组:800个未升级客户 - 变量:资产变化、收入、年龄、职业等 2. **倾向得分匹配(PSM)**: ```python # Step 1: 估计倾向得分 logit_model: upgrade ~ income + assets_t0 + age + occupation propensity_scores = predict(logit_model) # Step 2: 检查共同支撑 common_support = [0.1, 0.9] # 重叠区域 # Step 3: 1:1匹配 matched_pairs = nearest_neighbor_matching(propensity_scores) # Step 4: 平衡性检验 standardized_bias < 0.1 for all covariates ``` 3. **双重差分(DID)分析**: ``` Model: assets_growth = α + β₁·upgrade + β₂·post + β₃·(upgrade×post) + controls + ε 其中: - β₃ 是DID估计量(因果效应) - 预期 β₃ > 0 表示正向影响 ``` 4. **平行趋势检验**: ``` Event study: assets_t = α + Σ βₖ·1(period=k)·upgrade + γₜ + ε 检验 β₋₂ = β₋₁ = 0(升级前趋势平行) ``` 5. **稳健性检验**: - 改变匹配方法(卡尺匹配、核匹配) - 子样本分析(按年龄、初始资产分组) - 安慰剂检验(随机分配处理) 6. **结果解释**: 假设得到 β₃ = 0.15 (p < 0.01) - 私人银行服务使资产增长率提高15% - 考虑选择偏差后的真实效应 - 需要讨论外部有效性

题目2:给定一个5节点的转账网络,邻接矩阵如下:

   1  2  3  4  5
1 [0  1  1  0  0]
2 [0  0  1  1  0]
3 [1  0  0  1  1]
4 [0  0  0  0  1]
5 [0  0  0  0  0]

计算节点3的度中心性和介数中心性。

提示(Hint) 度中心性 = 节点度数/(n-1);介数中心性需要计算经过该节点的最短路径比例

🎯 挑战题

题目4:设计一个综合评分模型,整合RFM、社交网络和财务特征三个维度识别HNW客户。要求:

  1. 定义各维度的关键指标(至少3个)
  2. 设计指标标准化方法
  3. 提出权重分配方案
  4. 给出阈值设定建议
提示(Hint) 考虑不同维度指标的量纲差异;权重可以通过层次分析法或机器学习优化
点击查看答案 **综合评分模型设计**: 1. 关键指标体系: - RFM维度:R(最近交易时间)、F(年交易频率)、M(年交易总额) - 社交网络:度中心性、PageRank值、社区质量分 - 财务特征:总资产、收入多样性、投资收益率 2. 标准化方法: - Min-Max标准化:$x' = (x - x_{min})/(x_{max} - x_{min})$ - Z-score标准化:$x' = (x - \mu)/\sigma$ - 百分位标准化:$x' = \text{percentile}(x)/100$ 3. 权重分配(AHP法): - 财务特征:45%(总资产20%、收入15%、收益率10%) - RFM:30%(M为15%、F为10%、R为5%) - 社交网络:25%(PageRank 12%、中心性8%、社区5%) 4. 阈值设定: - 潜在HNW:综合得分 > 0.6 - 标准HNW:综合得分 > 0.75 - 超高净值:综合得分 > 0.9 综合得分公式: $$Score = 0.45 \times S_{fin} + 0.30 \times S_{RFM} + 0.25 \times S_{net}$$

题目5:某银行有10000个客户的交易网络数据。设计一个算法,找出最有可能是隐藏HNW客户的Top 100人。要求考虑:

  1. 直接财务指标可能不完整
  2. 社交网络的传递性
  3. 计算效率
提示(Hint) 可以使用图算法中的标签传播或PageRank思想
点击查看答案 **隐藏HNW识别算法**: ```python Algorithm: Hidden HNW Detection Input: Graph G(V, E), known_HNW set, k=100 Output: Top k potential HNW customers 1. 初始化: - 为已知HNW客户赋值 score = 1.0 - 其他客户 score = 0.0 2. 传播过程(迭代5次): for iteration in range(5): new_scores = {} for node in V: if node in known_HNW: new_scores[node] = 1.0 else: # 从邻居传播分数 neighbor_sum = 0 for neighbor in G.neighbors(node): weight = G.edge_weight(node, neighbor) neighbor_sum += scores[neighbor] * weight # 考虑网络结构特征 degree_factor = log(1 + G.degree(node)) clustering_factor = G.clustering_coefficient(node) new_scores[node] = 0.6 * neighbor_sum + 0.2 * degree_factor + 0.2 * clustering_factor scores = new_scores 3. 后处理: - 移除已知HNW客户 - 按score降序排序 - 返回Top 100 时间复杂度:O(5 * |E|) = O(|E|) 空间复杂度:O(|V|) ``` 关键优化: 1. 使用稀疏矩阵存储网络 2. 只迭代5次避免过度传播 3. 并行计算每个节点的分数

题目6:使用因果推断评估”私人银行服务”对客户资产增长的真实影响。给定1000个客户2年的面板数据,其中200人在第二年升级为私人银行客户。设计完整的分析流程。

提示(Hint) 考虑使用DID或PSM方法,注意检验假设条件
点击查看答案 **因果推断分析流程**: 1. **数据准备**: - 处理组:200个升级客户 - 控制组:800个未升级客户 - 变量:资产变化、收入、年龄、职业等 2. **倾向得分匹配(PSM)**: ```python # Step 1: 估计倾向得分 logit_model: upgrade ~ income + assets_t0 + age + occupation propensity_scores = predict(logit_model) # Step 2: 检查共同支撑 common_support = [0.1, 0.9] # 重叠区域 # Step 3: 1:1匹配 matched_pairs = nearest_neighbor_matching(propensity_scores) # Step 4: 平衡性检验 standardized_bias < 0.1 for all covariates ``` 3. **双重差分(DID)分析**: ``` Model: assets_growth = α + β₁·upgrade + β₂·post + β₃·(upgrade×post) + controls + ε 其中: - β₃ 是DID估计量(因果效应) - 预期 β₃ > 0 表示正向影响 ``` 4. **平行趋势检验**: ``` Event study: assets_t = α + Σ βₖ·1(period=k)·upgrade + γₜ + ε 检验 β₋₂ = β₋₁ = 0(升级前趋势平行) ``` 5. **稳健性检验**: - 改变匹配方法(卡尺匹配、核匹配) - 子样本分析(按年龄、初始资产分组) - 安慰剂检验(随机分配处理) 6. **结果解释**: 假设得到 β₃ = 0.15 (p < 0.01) - 私人银行服务使资产增长率提高15% - 考虑选择偏差后的真实效应 - 需要讨论外部有效性
点击查看答案 度中心性: - 节点3的度数 = 入度 + 出度 = 2 + 3 = 5(无向图中为4) - $C_D(3) = 4/(5-1) = 1$ 介数中心性: 需要找出所有节点对之间的最短路径: - 1→2: 直接连接,不经过3 - 1→4: 1→3→4,经过3 - 1→5: 1→3→5,经过3 - 2→5: 2→3→5,经过3 - 其他路径不经过3 $C_B(3) = 3/\binom{5}{2} = 3/10 = 0.3$

🎯 挑战题

题目4:设计一个综合评分模型,整合RFM、社交网络和财务特征三个维度识别HNW客户。要求:

  1. 定义各维度的关键指标(至少3个)
  2. 设计指标标准化方法
  3. 提出权重分配方案
  4. 给出阈值设定建议
提示(Hint) 考虑不同维度指标的量纲差异;权重可以通过层次分析法或机器学习优化
点击查看答案 **综合评分模型设计**: 1. 关键指标体系: - RFM维度:R(最近交易时间)、F(年交易频率)、M(年交易总额) - 社交网络:度中心性、PageRank值、社区质量分 - 财务特征:总资产、收入多样性、投资收益率 2. 标准化方法: - Min-Max标准化:$x' = (x - x_{min})/(x_{max} - x_{min})$ - Z-score标准化:$x' = (x - \mu)/\sigma$ - 百分位标准化:$x' = \text{percentile}(x)/100$ 3. 权重分配(AHP法): - 财务特征:45%(总资产20%、收入15%、收益率10%) - RFM:30%(M为15%、F为10%、R为5%) - 社交网络:25%(PageRank 12%、中心性8%、社区5%) 4. 阈值设定: - 潜在HNW:综合得分 > 0.6 - 标准HNW:综合得分 > 0.75 - 超高净值:综合得分 > 0.9 综合得分公式: $$Score = 0.45 \times S_{fin} + 0.30 \times S_{RFM} + 0.25 \times S_{net}$$

题目5:某银行有10000个客户的交易网络数据。设计一个算法,找出最有可能是隐藏HNW客户的Top 100人。要求考虑:

  1. 直接财务指标可能不完整
  2. 社交网络的传递性
  3. 计算效率
提示(Hint) 可以使用图算法中的标签传播或PageRank思想
点击查看答案 **隐藏HNW识别算法**: ```python Algorithm: Hidden HNW Detection Input: Graph G(V, E), known_HNW set, k=100 Output: Top k potential HNW customers 1. 初始化: - 为已知HNW客户赋值 score = 1.0 - 其他客户 score = 0.0 2. 传播过程(迭代5次): for iteration in range(5): new_scores = {} for node in V: if node in known_HNW: new_scores[node] = 1.0 else: # 从邻居传播分数 neighbor_sum = 0 for neighbor in G.neighbors(node): weight = G.edge_weight(node, neighbor) neighbor_sum += scores[neighbor] * weight # 考虑网络结构特征 degree_factor = log(1 + G.degree(node)) clustering_factor = G.clustering_coefficient(node) new_scores[node] = 0.6 * neighbor_sum + 0.2 * degree_factor + 0.2 * clustering_factor scores = new_scores 3. 后处理: - 移除已知HNW客户 - 按score降序排序 - 返回Top 100 时间复杂度:O(5 * |E|) = O(|E|) 空间复杂度:O(|V|) ``` 关键优化: 1. 使用稀疏矩阵存储网络 2. 只迭代5次避免过度传播 3. 并行计算每个节点的分数

题目6:使用因果推断评估”私人银行服务”对客户资产增长的真实影响。给定1000个客户2年的面板数据,其中200人在第二年升级为私人银行客户。设计完整的分析流程。

提示(Hint) 考虑使用DID或PSM方法,注意检验假设条件
点击查看答案 **因果推断分析流程**: 1. **数据准备**: - 处理组:200个升级客户 - 控制组:800个未升级客户 - 变量:资产变化、收入、年龄、职业等 2. **倾向得分匹配(PSM)**: ```python # Step 1: 估计倾向得分 logit_model: upgrade ~ income + assets_t0 + age + occupation propensity_scores = predict(logit_model) # Step 2: 检查共同支撑 common_support = [0.1, 0.9] # 重叠区域 # Step 3: 1:1匹配 matched_pairs = nearest_neighbor_matching(propensity_scores) # Step 4: 平衡性检验 standardized_bias < 0.1 for all covariates ``` 3. **双重差分(DID)分析**: ``` Model: assets_growth = α + β₁·upgrade + β₂·post + β₃·(upgrade×post) + controls + ε 其中: - β₃ 是DID估计量(因果效应) - 预期 β₃ > 0 表示正向影响 ``` 4. **平行趋势检验**: ``` Event study: assets_t = α + Σ βₖ·1(period=k)·upgrade + γₜ + ε 检验 β₋₂ = β₋₁ = 0(升级前趋势平行) ``` 5. **稳健性检验**: - 改变匹配方法(卡尺匹配、核匹配) - 子样本分析(按年龄、初始资产分组) - 安慰剂检验(随机分配处理) 6. **结果解释**: 假设得到 β₃ = 0.15 (p < 0.01) - 私人银行服务使资产增长率提高15% - 考虑选择偏差后的真实效应 - 需要讨论外部有效性

题目3:某客户过去12个月的交易金额为:[10, 12, 15, 11, 50, 13, 14, 12, 16, 13, 15, 14](单位:万元)。使用3-sigma规则判断是否存在异常交易。

提示(Hint) 计算均值和标准差,超过均值±3倍标准差的为异常值

🎯 挑战题

题目4:设计一个综合评分模型,整合RFM、社交网络和财务特征三个维度识别HNW客户。要求:

  1. 定义各维度的关键指标(至少3个)
  2. 设计指标标准化方法
  3. 提出权重分配方案
  4. 给出阈值设定建议
提示(Hint) 考虑不同维度指标的量纲差异;权重可以通过层次分析法或机器学习优化
点击查看答案 **综合评分模型设计**: 1. 关键指标体系: - RFM维度:R(最近交易时间)、F(年交易频率)、M(年交易总额) - 社交网络:度中心性、PageRank值、社区质量分 - 财务特征:总资产、收入多样性、投资收益率 2. 标准化方法: - Min-Max标准化:$x' = (x - x_{min})/(x_{max} - x_{min})$ - Z-score标准化:$x' = (x - \mu)/\sigma$ - 百分位标准化:$x' = \text{percentile}(x)/100$ 3. 权重分配(AHP法): - 财务特征:45%(总资产20%、收入15%、收益率10%) - RFM:30%(M为15%、F为10%、R为5%) - 社交网络:25%(PageRank 12%、中心性8%、社区5%) 4. 阈值设定: - 潜在HNW:综合得分 > 0.6 - 标准HNW:综合得分 > 0.75 - 超高净值:综合得分 > 0.9 综合得分公式: $$Score = 0.45 \times S_{fin} + 0.30 \times S_{RFM} + 0.25 \times S_{net}$$

题目5:某银行有10000个客户的交易网络数据。设计一个算法,找出最有可能是隐藏HNW客户的Top 100人。要求考虑:

  1. 直接财务指标可能不完整
  2. 社交网络的传递性
  3. 计算效率
提示(Hint) 可以使用图算法中的标签传播或PageRank思想
点击查看答案 **隐藏HNW识别算法**: ```python Algorithm: Hidden HNW Detection Input: Graph G(V, E), known_HNW set, k=100 Output: Top k potential HNW customers 1. 初始化: - 为已知HNW客户赋值 score = 1.0 - 其他客户 score = 0.0 2. 传播过程(迭代5次): for iteration in range(5): new_scores = {} for node in V: if node in known_HNW: new_scores[node] = 1.0 else: # 从邻居传播分数 neighbor_sum = 0 for neighbor in G.neighbors(node): weight = G.edge_weight(node, neighbor) neighbor_sum += scores[neighbor] * weight # 考虑网络结构特征 degree_factor = log(1 + G.degree(node)) clustering_factor = G.clustering_coefficient(node) new_scores[node] = 0.6 * neighbor_sum + 0.2 * degree_factor + 0.2 * clustering_factor scores = new_scores 3. 后处理: - 移除已知HNW客户 - 按score降序排序 - 返回Top 100 时间复杂度:O(5 * |E|) = O(|E|) 空间复杂度:O(|V|) ``` 关键优化: 1. 使用稀疏矩阵存储网络 2. 只迭代5次避免过度传播 3. 并行计算每个节点的分数

题目6:使用因果推断评估”私人银行服务”对客户资产增长的真实影响。给定1000个客户2年的面板数据,其中200人在第二年升级为私人银行客户。设计完整的分析流程。

提示(Hint) 考虑使用DID或PSM方法,注意检验假设条件
点击查看答案 **因果推断分析流程**: 1. **数据准备**: - 处理组:200个升级客户 - 控制组:800个未升级客户 - 变量:资产变化、收入、年龄、职业等 2. **倾向得分匹配(PSM)**: ```python # Step 1: 估计倾向得分 logit_model: upgrade ~ income + assets_t0 + age + occupation propensity_scores = predict(logit_model) # Step 2: 检查共同支撑 common_support = [0.1, 0.9] # 重叠区域 # Step 3: 1:1匹配 matched_pairs = nearest_neighbor_matching(propensity_scores) # Step 4: 平衡性检验 standardized_bias < 0.1 for all covariates ``` 3. **双重差分(DID)分析**: ``` Model: assets_growth = α + β₁·upgrade + β₂·post + β₃·(upgrade×post) + controls + ε 其中: - β₃ 是DID估计量(因果效应) - 预期 β₃ > 0 表示正向影响 ``` 4. **平行趋势检验**: ``` Event study: assets_t = α + Σ βₖ·1(period=k)·upgrade + γₜ + ε 检验 β₋₂ = β₋₁ = 0(升级前趋势平行) ``` 5. **稳健性检验**: - 改变匹配方法(卡尺匹配、核匹配) - 子样本分析(按年龄、初始资产分组) - 安慰剂检验(随机分配处理) 6. **结果解释**: 假设得到 β₃ = 0.15 (p < 0.01) - 私人银行服务使资产增长率提高15% - 考虑选择偏差后的真实效应 - 需要讨论外部有效性
点击查看答案 均值:$\mu = 195/12 = 16.25$万元 标准差:$\sigma = \sqrt{\sum(x_i - \mu)^2/(n-1)} = 10.84$万元 异常值阈值: - 上限:$16.25 + 3 \times 10.84 = 48.77$万元 - 下限:$16.25 - 3 \times 10.84 = -16.27$万元(实际为0) 第5个月的50万元超过上限48.77万元,判定为异常交易。

🎯 挑战题

题目4:设计一个综合评分模型,整合RFM、社交网络和财务特征三个维度识别HNW客户。要求:

  1. 定义各维度的关键指标(至少3个)
  2. 设计指标标准化方法
  3. 提出权重分配方案
  4. 给出阈值设定建议
提示(Hint) 考虑不同维度指标的量纲差异;权重可以通过层次分析法或机器学习优化
点击查看答案 **综合评分模型设计**: 1. 关键指标体系: - RFM维度:R(最近交易时间)、F(年交易频率)、M(年交易总额) - 社交网络:度中心性、PageRank值、社区质量分 - 财务特征:总资产、收入多样性、投资收益率 2. 标准化方法: - Min-Max标准化:$x' = (x - x_{min})/(x_{max} - x_{min})$ - Z-score标准化:$x' = (x - \mu)/\sigma$ - 百分位标准化:$x' = \text{percentile}(x)/100$ 3. 权重分配(AHP法): - 财务特征:45%(总资产20%、收入15%、收益率10%) - RFM:30%(M为15%、F为10%、R为5%) - 社交网络:25%(PageRank 12%、中心性8%、社区5%) 4. 阈值设定: - 潜在HNW:综合得分 > 0.6 - 标准HNW:综合得分 > 0.75 - 超高净值:综合得分 > 0.9 综合得分公式: $$Score = 0.45 \times S_{fin} + 0.30 \times S_{RFM} + 0.25 \times S_{net}$$

题目5:某银行有10000个客户的交易网络数据。设计一个算法,找出最有可能是隐藏HNW客户的Top 100人。要求考虑:

  1. 直接财务指标可能不完整
  2. 社交网络的传递性
  3. 计算效率
提示(Hint) 可以使用图算法中的标签传播或PageRank思想
点击查看答案 **隐藏HNW识别算法**: ```python Algorithm: Hidden HNW Detection Input: Graph G(V, E), known_HNW set, k=100 Output: Top k potential HNW customers 1. 初始化: - 为已知HNW客户赋值 score = 1.0 - 其他客户 score = 0.0 2. 传播过程(迭代5次): for iteration in range(5): new_scores = {} for node in V: if node in known_HNW: new_scores[node] = 1.0 else: # 从邻居传播分数 neighbor_sum = 0 for neighbor in G.neighbors(node): weight = G.edge_weight(node, neighbor) neighbor_sum += scores[neighbor] * weight # 考虑网络结构特征 degree_factor = log(1 + G.degree(node)) clustering_factor = G.clustering_coefficient(node) new_scores[node] = 0.6 * neighbor_sum + 0.2 * degree_factor + 0.2 * clustering_factor scores = new_scores 3. 后处理: - 移除已知HNW客户 - 按score降序排序 - 返回Top 100 时间复杂度:O(5 * |E|) = O(|E|) 空间复杂度:O(|V|) ``` 关键优化: 1. 使用稀疏矩阵存储网络 2. 只迭代5次避免过度传播 3. 并行计算每个节点的分数

题目6:使用因果推断评估”私人银行服务”对客户资产增长的真实影响。给定1000个客户2年的面板数据,其中200人在第二年升级为私人银行客户。设计完整的分析流程。

提示(Hint) 考虑使用DID或PSM方法,注意检验假设条件
点击查看答案 **因果推断分析流程**: 1. **数据准备**: - 处理组:200个升级客户 - 控制组:800个未升级客户 - 变量:资产变化、收入、年龄、职业等 2. **倾向得分匹配(PSM)**: ```python # Step 1: 估计倾向得分 logit_model: upgrade ~ income + assets_t0 + age + occupation propensity_scores = predict(logit_model) # Step 2: 检查共同支撑 common_support = [0.1, 0.9] # 重叠区域 # Step 3: 1:1匹配 matched_pairs = nearest_neighbor_matching(propensity_scores) # Step 4: 平衡性检验 standardized_bias < 0.1 for all covariates ``` 3. **双重差分(DID)分析**: ``` Model: assets_growth = α + β₁·upgrade + β₂·post + β₃·(upgrade×post) + controls + ε 其中: - β₃ 是DID估计量(因果效应) - 预期 β₃ > 0 表示正向影响 ``` 4. **平行趋势检验**: ``` Event study: assets_t = α + Σ βₖ·1(period=k)·upgrade + γₜ + ε 检验 β₋₂ = β₋₁ = 0(升级前趋势平行) ``` 5. **稳健性检验**: - 改变匹配方法(卡尺匹配、核匹配) - 子样本分析(按年龄、初始资产分组) - 安慰剂检验(随机分配处理) 6. **结果解释**: 假设得到 β₃ = 0.15 (p < 0.01) - 私人银行服务使资产增长率提高15% - 考虑选择偏差后的真实效应 - 需要讨论外部有效性

3.10 常见陷阱与错误(Gotchas)

数据质量陷阱

  1. 幸存者偏差:只分析现有HNW客户,忽略了流失客户
    • 解决方案:保留历史客户完整数据,包括流失客户
  2. 数据泄露:使用了未来信息预测当前状态
    • 解决方案:严格的时间切分,确保特征生成时间早于标签时间
  3. 标签噪声:HNW定义标准不一致或变化
    • 解决方案:建立清晰的标签定义,考虑使用软标签

特征工程陷阱

  1. 过度工程:创建过多相关特征导致多重共线性
    • 解决方案:VIF检验,特征选择,正则化
  2. 时间窗口选择:窗口太短捕捉不到模式,太长包含过期信息
    • 解决方案:多时间窗口特征,指数衰减加权
  3. 类别不平衡:HNW客户占比极低(<1%)
    • 解决方案:SMOTE采样,代价敏感学习,异常检测框架

模型陷阱

  1. 因果混淆:将相关性误认为因果关系
    • 解决方案:使用因果推断方法,A/B测试验证
  2. 过拟合于历史模式:金融危机等黑天鹅事件改变客户行为
    • 解决方案:定期重训练,监控模型衰减,压力测试

业务陷阱

  1. 隐私合规风险:过度使用客户隐私数据
    • 解决方案:数据最小化原则,获得明确授权,定期审计
  2. 评估指标单一:只看准确率,忽略召回率
    • 解决方案:多指标平衡,考虑业务成本收益

3.11 最佳实践检查清单

数据准备阶段

特征工程阶段

模型开发阶段

验证评估阶段

部署监控阶段

持续优化阶段