kaggle实战之竞赛步骤

清洗异常特征
进行采样，如果数据不均衡，可以使用上采样或下采样保证数据均衡
将少的数据给予大的权重，以模型能够着重考虑少的数据
把多数据分为多类与少数据组成多组数据均衡的数据，分别训练多个弱分类器，然后bagging进行融合，分类的话通过vote投票取准确率高的模型，回归的话通过avg返回平均值

Filter - 过滤型
1. 思路:这个特征和结果的相关度
2. 相关系数
3. 卡方检验
4. 信息增益互信息
Wrapper - 包裹型
1. 思路:通过目标函数来决定是否加入一个变量
2. RFE 对特征的重要度进行排序并踢掉不重要的特征
3. 迭代:产生特征子集，评价:1.完全搜索2.启发式搜索3.随机搜索(GA,SA)
Embedded - 嵌入型
1. 思路:基于模型做特征选择
2. 正则化 - L1(lasso) L2(Ridge)
3. 决策树 - 熵 / 信息增益
4. 深度学习

通过好几个不错的模型共同的结果判定最后的结果

群众的力量是伟大的，集体智慧是惊人的
1. Bagging 最简单最常见的 (内部取样本是有放回的)
  - 不用全部的数据集，每次取一个子集 都使用相同算法训练一个模型，最后分类问题用这些模型的结果做vote，回归问题对这些模型的结果取avg
  - 不用全部的数据集，每次取一个子集 都使用不同算法训练一个模型，最后分类问题用这些模型的结果做vote，回归问题对这些模型的结果取avg
2. Random forest 随机森林
站在巨人的肩膀上，能看的更远
1. 模型 stacking
  - 用多种predictor结果作为特征训练
  - 把各个模型输出结果当作输入，构建最后一个分类器产生输出
  - 如果最后的分类器为linear线性的，也就等价于把多个结果进行加权平均
  - 如果最后的分类器为majority，也就等价于把多个结果进行vote投票选择
2. 弱化的stacking - blending
一万小时定律 Boosting
1. Adaboost
  - 重复迭代和训练 - 还不够努力需要多次学习
  - 每次给分错的样本分配更高的权重 - 要多做之前做错的题
  - 最简单的分类器叠加 - 脚踏实地，通过最简单的知识积累即使不聪明也可以称为专家
2. GBT - Gradient Boosting Tree 逐步增强树
3. XGboost