仓库源文站点原文


layout: default

title: 特征交互

介绍

特征交互是要衡量两组特征之间的相关性,即在特征1 和特征2 分别取某个值时,对模型结果是否有特殊的影响。

基本假设:当两个特征完全独立,即没有任何相关性时,我们认为$PD_{jk}(j,k)=PD_j(j) + PD_k(k)$,特征有一定相关性时,等号不成立。那么就可以用等号前后的两个函数的差异,衡量特征之间的相关性。

那么就可以用一下公式来衡量两个特征的相关性: $$ H{j,k}^2=\frac{\sum{i=1}^n[PD{j,k}(x{j}^{(i)},x_{k}^{(i)})-PDj(x{j}^{(i)})-PDk(x{k}^{(i)})]^2}{\sum_{i=1}^nf(x)^2} $$ 使特征 k = all - j,就可衡量特征 j 与其他所有特征的相关性。

案例

1)计算每个特征与其他所有特征的相关性,挑出相关性最强的特征。 <img src="/images/2022/07/2422540463.png" width=500>

2) 从第一步挑出的特征中,两两计算相关性,挑出相关性最强的组合。 <img src="/images/2022/07/3765117879.png" width=500>

优缺点

优点

  1. 可以统计任何形式的特征关系
  2. 可以统计 >= 3 维的特征关系

缺点

https://christophm.github.io/interpretable-ml-book/interaction.html