阅读( 190 )次

   评论(0)条

飞龙在天

数据预处理

数据预处理技术

数据清理:空缺值处理、格式标准化、异常数据清除、错误纠正、重复数据的清除

数据集成:将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。

数据变换:平滑、聚集、规范化、最小 最大规范化等

数据归约:维归(删除不相关的属性(维))、数据压缩(PCA,LDA,SVD、小波变换)、数值归约(回归和对数线形模型、线形回归、对数线形模型、直方图)

数据离散化和概念分层

1、数据清理:格式标准化、异常数据清除、错误纠正、重复数据的清除

通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致来清理数据,主要是达到如下目标:

(1)数据集压缩处理,主要策略:

数据聚集、维规约、数据压缩、数据规约

(2)空缺值处理,主要策略:

1)忽略元组、人工填写空缺值、使用固定值 

2)平均值(中位数等)、各种插值处理(牛顿插值、Lagrange插值等)

3)使用一些分类方法如KNN等。

(3)噪声数据处理,主要策略:

数据平滑技术:

1)分箱处理

箱的深度:表示不同的箱里有相同个数的数据。

箱的宽度:每个箱值的取值区间是个常数。

2)平滑方法:

按箱平均值平滑、

按箱中值平滑、

按箱边界值平滑

3)聚类技术:

每个簇中的数据用其中心值代替、

识别检测并忽略孤立点

4)回归技术:

通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。

线形回归、

多线形回归

2、数据集成:将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。

3、数据变换:

平滑、聚集、数据概化、规范化、最小 最大规范化、小数定标规范化、属性构造:由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解

4、数据归约:

(1)、维归约

删除不相关的属性(维)来减少数据量。

找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布,一般可以通过贪心算法,逐步向前选择,逐步后向删除,向前选择和后向删除相结合,判定树归纳

(2)、数据压缩

主成分分析PCA,LDA,SVD

小波变换:将数据向量D转换成为数值上不同的小波系数的向量D’,对D’进行剪裁,保留小波系数最强的部分

(3)、数值归约

回归和对数线形模型、线形回归、对数线形模型、直方图、等宽、等深、V-最优、maxDiff、聚类、多维索引树 : 对于给定的数据集合,索引树动态的划分多维空间。

5、离散化和概念分层

离散化技术用来减少给定连续属性的个数,这个过程通常是递归的,而且大量时间花在排序上。

对于给定的数值属性,概念分层定义了该属性的一个离散化的值。

数值数据离散化和概念分层生成方法有:分箱、直方图分析

借用老师的话,数据分析前可以探索性的试探各个属性对分类或者聚类的影响,方便我们对各个属性的理解,对模型的选择方面度有帮助。


 收藏 (0)  打赏  点赞 (1)

 ©2017 studyai.com 版权所有

关于我们