layout: default
特征交互是要衡量两组特征之间的相关性,即在特征1 和特征2 分别取某个值时,对模型结果是否有特殊的影响。
基本假设:当两个特征完全独立,即没有任何相关性时,我们认为$PD_{jk}(j,k)=PD_j(j) + PD_k(k)$,特征有一定相关性时,等号不成立。那么就可以用等号前后的两个函数的差异,衡量特征之间的相关性。
那么就可以用一下公式来衡量两个特征的相关性: $$ H{j,k}^2=\frac{\sum{i=1}^n[PD{j,k}(x{j}^{(i)},x_{k}^{(i)})-PDj(x{j}^{(i)})-PDk(x{k}^{(i)})]^2}{\sum_{i=1}^nf(x)^2} $$ 使特征 k = all - j,就可衡量特征 j 与其他所有特征的相关性。
1)计算每个特征与其他所有特征的相关性,挑出相关性最强的特征。 <img src="/images/2022/07/2422540463.png" width=500>
2) 从第一步挑出的特征中,两两计算相关性,挑出相关性最强的组合。 <img src="/images/2022/07/3765117879.png" width=500>
优点
缺点
https://christophm.github.io/interpretable-ml-book/interaction.html