在大数据挖掘与分析培训当中,关于数据清洗及预分析这一块的内容,也算是比较重要的课程章节。在大数据挖掘与分析当中,我们得到了数据并不一定是干净的,其中往往夹杂着很多干扰性的数据垃圾,而数据清洗及预分析,主要就是对不干净的数据进行初步的处理,以便于后续的分析处理。
数据清洗的必要性,就在于对数据源当中存在的可能影响数据分析结果的数据,进行初步的筛选和剔除,比如说重复数据、缺失数据以及异常数据等。其中涉及到的具体操作包括:
·选择:数据访问(标签、特定值、布尔索引等)
·缺失值处理:对缺失数据行进行删除或填充
·重复值处理:重复值的判断与删除
·空格和异常值处理:清楚不必要的空格和极端、异常数据
·相关操作:描述性统计、Apply、图形绘制等
从这里开始的大数据挖掘与分析培训,就要开始接入Python的学习了。当然,我们不必将Python完全掌握着重还是在数据分析这一部分的知识技能就可以了,其中包括:
·基本的数据类型:比如字符串、列表、字典、元组,不同的数据类型如何创建、进行增、删、改等操作,以及其中常用的函数及方法;
·Python函数:学习如何去创建自己的函数,实现更丰富的定制化程序,知道在使用中如何调用;
·控制语句:主要是条件语句和循环语句,利用不同的语句对流程进行控制,这是实现程序的自动化的基础。
掌握了以上Python基础技能之后,对于Python当中非常重要的两个库,Numpy和Pandas也要着重掌握。对于这两个库,可以先从常用的方法开始学起,这样就能够解决很多实际遇到的数据分析问题,后续可以根据遇到的问题去查询文档进行补充。
关于Numpy需要掌握的知识如下:
·数组创建:从已有的数组创建、从数值范围创建
·数组切片:通过切片进行选择
·数组操作:元素增删、数组维度修改、数组的分割及连接
·Numpy函数:字符串函数、数学函数、统计函数
关于Pandas需要掌握的知识如下:
·数据准备:数据读取、创建数据表
·数据查看:查看数据基本信息、查找空值和唯一值
·数据清洗:缺失值处理、重复值处理、字符处理
·数据提取:按标签值进行提取、按位置进行提取
·数据统计:采样、汇总、基本的统计量计算
以上就是关于大数据挖掘与分析培训当中,数据清洗及预分析的相关知识了,在数据分析挖掘当中,Python的技能要求是必须的,所以学习阶段对于Python一定要把基础打扎实。成都加米谷大数据,专业
大数据培训机构,数据分析与挖掘2020春季班正在招生中,详情可联系客服了解!