知识点:特征归一化(Feature Scaling)
如果存在特征的数值差别比较大的特征,那么分析出来的结果显然就会倾向于数值差别比较大的特征。
比如在学习速率相同的情况下,数值差别大的特征的更新速度就会大于数值差别小的特征,这样就需要较多的迭代才能找到最优解。如果将所有特征归一化到相同的数值区间后,优化目标的等值图就会变成圆形。这样所有的特征的更新速度就变得更为一致,就能够更容易且更快的通过梯度下降找到最优解。
因此为了消除数据特征之间的量纲影响,得到更为准确的结果,就需要进行特征归一化处理,使各指标处于同一数值量级,使得不同指标之间具有可比性,以便进行分析。
在实际应用中通过梯度下降法求解的模型通常都是需要归一化的,比如线性回归、逻辑回归、支持向量机、神经网络等模型。但是数据归一化并不是万能的,对于决策树模型它是不适用的,决策树在进行节点分裂时,主要依据的是数据集关于特征的信息增益比,而信息增益比与特征是否经过归一化是无关的,因为归一化并不会改变样本在特征上的信息增益。