简记-反欺诈背景
Kong Liangqian Lv6

1. 目标

使用训练集让xgboost or lightgbm 做拟合, 使用同样的特征工程把数据传给训练好的模型中做结果的预测

2. 特征工程

  • 对所有的特征都数字化
  • 人为特征编码,如数字时间戳可以变成多个特征,year, month, week, 时间差等等
  • 特征nan值处理,是填值或者不处理
  • 特征做mapping, 全部数字化,可以通过分组,归类等
  • 特征可以俩俩或者多个之间组合,构建新特征
  • 找到更为关键的特征,计算特征值对应的label 比, 即 label为1个数 / label 为0的个数。比如特征比>10的记为新特征的1

3. 模型提升

  • 调参: 网格搜索,多跑几组

  • 交叉验证 (from sklearn.model import strtifiedKFold )strtifiedKFold相比于Fold他可以让五折的验证集更均衡。

问:为何要用交叉验证?

4 其他方法

深度学习

 Comments