常用数据转换方式
日期:2023-09-26 21:32:16   来源:数据采集转换类

  这两天在做热度值计公式的时候,需要考虑到用户行为和用户转换率,但这两个特征的值又相差很远,所以要用到数据转换(特征缩放),就想正好总结一下以下常用的几个方式。这中间还包括线性变换的归一化和标准化,和非线性变换的对数,sigmoid和box-cox变换。

  其实我们根据Min-max scaler和Standar scaler的定义也可以知道,

  其实它们两者都是线性变换,都是通过将函数平移然后再对其进行缩放,只不过平移数和缩放比例不一样而已,且两者都不会改变原始数据的排列顺序

  它们两者之间有一个差别是,归一化能够将映射结果限定在某个特定范围以内,但是标准化并没这个限制,

  在逻辑回归的时候,我们有详细的说了sigmoid函数的特性,其它就不再多提了,它也能把值限定在[0,1]中,但是这里有一个必须要格外注意的点是,如果输入的原始数据很大的时候,有可能很多的值都会输出为1。

  。这里补充一点题外话,高斯马尔科夫定理提到对于线性回归模型,在某些约束条件下,由最小二乘法得到的估计量,即线性回归模型的系数,是最优的线性无偏估计子。约束条件如下所示,当分布不是如要求那样的话,对数转换就会经常作为解决办法出现。

  可以用SW(样本数小于5000)和KS(样本数大于5000)假设检验来验证,原假设都是残差是正态分布;

  如果验出来不是正态分布的线个解决办法是对因变量y取自然对数(这里跟上面提到的一样,取对数之后解释的是数据的增长率);第2个解决办法是进行Box-cox变换,或者直接换模型了。

  可以用BP和White检验(精度更高但需要用掉大量自由度,当样本量小时容易出问题),原假设都是残差是同方差;

  如果验出来不是同方差的话,作为解决办法也可以对因变量y取自然对数;不行的话还能够正常的使用加权最小二乘法(线性回归),缺点是权重可能很难找出来。

  4.不能有内生性,即自变量和残差不能存在线性相关性,在遗漏重要变量时容易出现;

  第1个解决办法是扩大样本量(因为内生性不会影响模型的无偏性,但是会影响模型的收敛速度),第2个方法是工具变量。

  6.残差不能有序列相关性,残差之间不能有太高的相关性,当数据里面有时间属性时容易出问题。

  后面还查到常用的有BN和LN等等,但是因为其它我目前暂时还没有怎么用到也还不太了解就先不补充了,这个暂时就这样了。