主页 > 新闻资讯 > 大数据挖掘与分析培训:数据清洗及预分析

大数据挖掘与分析培训:数据清洗及预分析

作者:张老师 浏览次数: 2020-02-25 18:09
在大数据挖掘与分析培训当中,关于数据清洗及预分析这一块的内容,也算是比较重要的课程章节。在大数据挖掘与分析当中,我们得到了数据并不一定是干净的,其中往往夹杂着很多干扰性的数据垃圾,而数据清洗及预分析,主要就是对不干净的数据进行初步的处理,以便于后续的分析处理。

大数据挖掘与分析培训

数据清洗的必要性,就在于对数据源当中存在的可能影响数据分析结果的数据,进行初步的筛选和剔除,比如说重复数据、缺失数据以及异常数据等。其中涉及到的具体操作包括:

·选择:数据访问(标签、特定值、布尔索引等)

·缺失值处理:对缺失数据行进行删除或填充

·重复值处理:重复值的判断与删除

·空格和异常值处理:清楚不必要的空格和极端、异常数据

·相关操作:描述性统计、Apply、图形绘制等

从这里开始的大数据挖掘与分析培训,就要开始接入Python的学习了。当然,我们不必将Python完全掌握着重还是在数据分析这一部分的知识技能就可以了,其中包括:

·基本的数据类型:比如字符串、列表、字典、元组,不同的数据类型如何创建、进行增、删、改等操作,以及其中常用的函数及方法;

·Python函数:学习如何去创建自己的函数,实现更丰富的定制化程序,知道在使用中如何调用;

·控制语句:主要是条件语句和循环语句,利用不同的语句对流程进行控制,这是实现程序的自动化的基础。

掌握了以上Python基础技能之后,对于Python当中非常重要的两个库,Numpy和Pandas也要着重掌握。对于这两个库,可以先从常用的方法开始学起,这样就能够解决很多实际遇到的数据分析问题,后续可以根据遇到的问题去查询文档进行补充。

关于Numpy需要掌握的知识如下:

·数组创建:从已有的数组创建、从数值范围创建

·数组切片:通过切片进行选择

·数组操作:元素增删、数组维度修改、数组的分割及连接

·Numpy函数:字符串函数、数学函数、统计函数

关于Pandas需要掌握的知识如下:

·数据准备:数据读取、创建数据表

·数据查看:查看数据基本信息、查找空值和唯一值

·数据清洗:缺失值处理、重复值处理、字符处理

·数据提取:按标签值进行提取、按位置进行提取

·数据统计:采样、汇总、基本的统计量计算

以上就是关于大数据挖掘与分析培训当中,数据清洗及预分析的相关知识了,在数据分析挖掘当中,Python的技能要求是必须的,所以学习阶段对于Python一定要把基础打扎实。成都加米谷大数据,专业大数据培训机构,数据分析与挖掘2020春季班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>