简记-反欺诈背景
1. 目标
使用训练集让xgboost or lightgbm 做拟合, 使用同样的特征工程把数据传给训练好的模型中做结果的预测
2. 特征工程
- 对所有的特征都数字化
- 人为特征编码,如数字时间戳可以变成多个特征,year, month, week, 时间差等等
- 特征nan值处理,是填值或者不处理
- 特征做mapping, 全部数字化,可以通过分组,归类等
- 特征可以俩俩或者多个之间组合,构建新特征
- 找到更为关键的特征,计算特征值对应的label 比, 即 label为1个数 / label 为0的个数。比如特征比>10的记为新特征的1
3. 模型提升
调参: 网格搜索,多跑几组
交叉验证 (from sklearn.model import strtifiedKFold )strtifiedKFold相比于Fold他可以让五折的验证集更均衡。
问:为何要用交叉验证?
4 其他方法
深度学习
Comments