本文作者:kaifamei

请举几个标准化的例子

更新时间:2023-01-19 17:19:55 人在看 0条评论

请举几个标准化的例子


2023年1月19日发(作者:保护环境作文500字保护环境)

标准化归⼀化

⼀、标准化/归⼀化定义

归⼀化和标准化经常被搞混,程度还⽐较严重,⾮常⼲扰⼤家的理解。为了⽅便后续的讨论,必须先明确⼆者的定义。

归⼀化

就是将训练集中某⼀列数值特征(假设是第i列)的值缩放到0和1之间。⽅法如下所⽰:

标准化

就是将训练集中某⼀列数值特征(假设是第i列)的值缩放成均值为0,⽅差为1的状态。如下所⽰:

进⼀步明确⼆者含义

归⼀化和标准化的相同点都是对某个特征(column)进⾏缩放(scaling)⽽不是对某个样本的特征向量(row)进⾏缩放。对特征向量进⾏缩放

是毫⽆意义的(暗坑1)⽐如三列特征:⾝⾼、体重、⾎压。每⼀条样本(row)就是三个这样的值,对这个row⽆论是进⾏标准化还是归⼀化

都是好笑的,因为你不能将⾝⾼、体重和⾎压混到⼀起去!

在线性代数中,将⼀个向量除以向量的长度,也被称为标准化,不过那⾥的标准化是将向量变为长度为1的单位向量,它和我们这⾥的标准化不是

⼀回事⼉,不要搞混哦(暗坑2)。

⼆、标准化/归⼀化好处

1提升模型精度

在机器学习算法的⽬标函数(例如线性模型的l1和l2正则化),许多学习算法中⽬标函数的基础都是假设所有的特征都是零均值并且具有同⼀阶数上

的⽅差。如果某个特征的⽅差⽐其他特征⼤⼏个数量级,那么它就会在学习算法中占据主导位置,导致学习器并不能像我们说期望的那样,从其他

特征中学习。

举⼀个简单的例⼦,在KNN中,我们需要计算待分类点与所有实例点的距离。假设每个实例点(instance)由n个features构成。如果我们选⽤

的距离度量为欧式距离,如果数据预先没有经过归⼀化,那么那些绝对值⼤的features在欧式距离计算的时候起了决定性作⽤。

从经验上说,归⼀化是让不同维度之间的特征在数值上有⼀定⽐较性,可以⼤⼤提⾼分类器的准确性。

2提升收敛速度

对于线性model来说对于线性model来说,数据归⼀化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。

⽐较这两个图,前者是没有经过归⼀化的,在梯度下降的过程中,⾛的路径更加的曲折,⽽第⼆个图明显路径更加平缓,收敛速度更快。对于神

经⽹络模型,避免饱和是⼀个需要考虑的因素,通常参数的选择决定于input数据的⼤⼩范围。

三、标准化/归⼀化的对⽐分析

⾸先明确,在机器学习中,标准化是更常⽤的⼿段,归⼀化的应⽤场景是有限的。我总结原因有两点:

1、标准化更好保持了样本间距。当样本中有异常点时,归⼀化有可能将正常的样本“挤”到⼀起去。⽐如三个样本,某个特征的值为

1,2,10000,假设10000这个值是异常值,⽤归⼀化的⽅法后,正常的1,2就会被“挤”到⼀起去。如果不幸的是1和2的分类标签还是相反的,那

么,当我们⽤梯度下降来做分类模型训练时,模型会需要更长的时间收敛,因为将样本分开需要更⼤的努⼒!⽽标准化在这⽅⾯就做得很好,⾄少

它不会将样本“挤到⼀起”。

2、标准化更符合统计学假设

对⼀个数值特征来说,很⼤可能它是服从正态分布的。标准化其实是基于这个隐含假设,只不过是略施⼩技,将这个正态分布调整为均值为0,⽅

差为1的标准正态分布⽽已。

原⽂链接:[机器学习]数据特征标准化和归⼀化_⼩墨鱼的专栏-CSDN博客_机器学习标准化


文章投稿或转载声明

本文链接:https://www.en369.cn/fanwen/xinxi-7-122693-0.html

来源:范文频道-369作文网版权所有,转载请保留出处。本站文章发布于 2023-01-19 17:19:55

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论