layout: default
缺失值处理:1)缺失。2)填充0、均值、中位数 无效值:1)只有一个取值。2)无区分度。
分类特征:label encoder,oneHot encoder,target encoder
特征衍生:绝对值、平方、对数。对树模型作用不大。
特征分箱:等频、等距、卡方
时间:年、月、日、时、分;
统计特征:计数、最大、最小、均值、求和、方差、中位数
多项式特征:特征组合,组合的特征数量随 degree 指数增长,可参考 sklearn.preprocessing.PolynomialFeatures
N-to-N:核函数,比如直角坐标转极坐标
时序特征:密度、连续上升/下降次数
文本特征:NLP
图像特征:CV
特征扩散:引入拓扑关系
本文对比了不同模型构造不同特征的能力。
模型:DNN, SVR, RF, GBM
特征:计数、求和、标准差、剪发、分布、log、max、多项式、指数、二元方式根的距离、r_diff、r_poly、比例、平方根、欧式距离。
四种模型构造 r_diff 特征的能力都最弱
$$
y=\frac{x_1-x_2}{x_3-x_4} $$ 表现最好的是DNN,学习能力最差的依次是 r_diff, max, dev
<img src="/images/2022/05/4238669103.png" width="500" alt="">
SVR表现最差,但适合跟DNN搭配。
<img src="/images/2022/05/1462451419.png" width="500" alt="">
RF和GBM表现非常类似
<img src="/images/2022/05/2734457023.png" width="500" alt="">
<img src="/images/2022/05/1669916444.png" width="500" alt="">
过滤法:单特征看区分度,IV值
包装法:不断加入/删除特征,看模型指标的变化
嵌入法:看特征权重,可以考虑引入正则。
模型相关:数模型看分裂增益
稳定性:直接影响模型稳定性,考虑以正则的方式加入模型
解释性
Exploratory Data Analysis
特征相关性:主成分分析;相似度;聚类
特征工程的10个案例:https://www.kdnuggets.com/2018/12/feature-engineering-explained.html
polynomial feature:https://machinelearningmastery.com/ polynomial-features-transforms-for-machine-learning/
spark 特征工程:提供了一些特征分桶、特征标准化的一些接口
featuretools:特征扩展包,通过名字描述特征勾走Exploratory
Data Analysis
autogluon:自动机器学习库
神秘网友:https://hg95.github.io/sklearn-notes/Chapter5/%E8%BF%87%E6%BB%A4%E6%B3%95%E6%80%BB%E7%BB%93.html