数据发掘中常用的数据改换办法总结
日期:2023-09-26 21:32:24   来源:数据采集转换类

  在进行数据预处理中经常用到数据改换,经过相应的改换操作,能够将数据改换到正态散布中,消除数据之间的量纲问题,使数据看起来更的规整,这样建模得出来的成果才会更精确,本文总结常用的数据改换办法,并调用Python的sklearn库中相应函数进行完成。

  浅显的讲,实践使用中的数据标准化的进程一起也是数据改换的进程,在这里不做显着的区别,本文首要介绍数据改换的办法重要有:最大最小标准化、z-score改换、对数改换、box-cox改换。

  最大最小标准化办法大多数都用在将数据缩放到[0,1]范围内,防止数据的散布过分广泛,可是这种办法有一个丧命的缺陷,便是其简单遭到异常值的影响,一个异常值或许会将改换后的数据变为偏左或者是偏右的散布,因而在做最大最小标准化之前一定要去除相应的异常值才行。

  z-score改换一般用于将数据改换为正态散布,由于一般的计算分析办法都在假定数据遵守正态散布,一切有的模型要求输入数据需为正态散布,遇到这类的模型时需求使用z-score改换。

  box-cox改换是计算建模中常用的数据改换办法,用于接连的呼应变量不满足正态散布的状况。Box-Cox改换之后,能够某些特定的程度上减小不行观测的差错和猜测变量的相关性。

  从上面的式子中能够发现box-cox改换终究的方式是由\lambda所决议的: