百面机器学习-为什么需要对数值类型的特征做归一化

​ 知识点:特征归一化(Feature Scaling)

​ 如果存在特征的数值差别比较大的特征,那么分析出来的结果显然就会倾向于数值差别比较大的特征。

​ 比如在学习速率相同的情况下,数值差别大的特征的更新速度就会大于数值差别小的特征,这样就需要较多的迭代才能找到最优解。如果将所有特征归一化到相同的数值区间后,优化目标的等值图就会变成圆形。这样所有的特征的更新速度就变得更为一致,就能够更容易且更快的通过梯度下降找到最优解。

​ 因此为了消除数据特征之间的量纲影响,得到更为准确的结果,就需要进行特征归一化处理,使各指标处于同一数值量级,使得不同指标之间具有可比性,以便进行分析。

​ 在实际应用中通过梯度下降法求解的模型通常都是需要归一化的,比如线性回归、逻辑回归、支持向量机、神经网络等模型。但是数据归一化并不是万能的,对于决策树模型它是不适用的,决策树在进行节点分裂时,主要依据的是数据集关于特征的信息增益比,而信息增益比与特征是否经过归一化是无关的,因为归一化并不会改变样本在特征上的信息增益。

本文结束 感谢您的阅读
坚持原创技术分享,您的支持将鼓励我继续创作!