主页 > 新闻资讯 > 初级大数据分析培训班之大数据预处理技术

初级大数据分析培训班之大数据预处理技术

作者:张老师 浏览次数: 2020-06-03 17:57
在大数据分析的工作当中,有很重要的一个环节,叫做数据预处理,在正式数据分析之前,我们需要进行初步的数据整理,这样才能使得数据分析的结果更加准确。今天的初级大数据分析培训班分享,我们主要来对大数据预处理技术做一个简单的介绍。

通常来说,数据预处理主要包括数据清洗(Data Cleaning)、数据集成(Data Integration)、数据转换(Data Transformation)和数据消减(Data Reduction)等几个部分,根据实际的数据,可以选择性地进行操作。

初级大数据分析培训班

大数据预处理整体架构

大数据预处理将数据划分为结构化数据和半结构化/非结构化数据,分别采用传统ETL工具和分布式并行处理框架来实现。

结构化数据可以存储在传统的关系型数据库中。关系型数据库在处理事务、及时响应、保证数据的一致性方面有天然的优势。

非结构化数据可以存储在新型的分布式存储中,如Hadoop的HDFS半结构化数据可以存储在新型的分布式NoSQL数据库中,如HBase。

分布式存储在系统的横向扩展性、存储成本、文件读取速度方面有着显著的优势。

结构化数据和非结构化数据之间的数据可以按照数据处理的需求进行迁移。例如,为了进行快速并行处理,需要将传统关系型数据库中的结构化数据导入到分布式存储中。

可以利用Sqoop等工具,先将关系型数据库的表结构导入分布式数据库,然后再向分布式数据库的表中导入结构化数据。

大数据预处理方法

数据清洗是指消除数据中存在的噪声及纠正其不一致的错误。数据集成是指将来自多个数据源的数据合并到一起构成一个完整的数据集。

数据转换是指将一种格式的数据转换为另一种格式的数据。数据消减是指通过删除冗余特征或聚类消除多余数据。

数据清洗的处理过程通常包括填补遗漏的数据值,平滑有噪声数据,识别或除去异常值,以及解决不一致问题。有问题的数据将会误导数据挖掘的搜索过程。

数据集成就是将来自多个数据源的数据合并到一起。由于描述同一个概念的属性在不同数据库中有时会取不同的名字,所以在进行数据集成时就常常会引起数据的不一致或冗余。

关于初级大数据分析培训班,大数据预处理技术,以上就为大家做了一个详细的介绍了。大数据分析,是数据价值挖掘的重要环节,规范的大数据预处理,对数据分析非常有利。加米谷大数据,成都大数据培训机构,大数据分析与挖掘,周末小班面授,本月正在招生中,课程大纲及学习资料可联系客服获取!
热点排行
推荐文章
立即申请>>