主页 > 新闻资讯 > Python大数据培训视频之数据处理代码实战

Python大数据培训视频之数据处理代码实战

作者:张老师 浏览次数: 2020-05-18 16:24
在大数据领域,现在主流选择的编程语言,主要是Java和Python,这两者,Java主要集中在大数据开发方向,而Python主要集中在大数据分析方向,具备相关语言的基础,是入门大数据所必须的。今天的Python大数据培训视频,我们主要来分享一下Python数据处理代码实战。

Python是现在行业当中受到主流认可的非常适用于大数据分析的语言,Python具有强大的数据分析操作和分析库,面对大数据分析当中的各种需求,都能给出合适的解决方案。也正是因为如此,Python才在大数据分析当中,受到格外的青睐。

Python大数据培训视频

使用Python进行大数据处理,能够以非常快捷高效的速度,迅速完成。大数据处理,通过包括数据清洗、数据抽取、数据交换和数据计算几个阶段。

数据清洗是数据价值链中最关键的一步。海量的数据当中,必然存在一些垃圾数据,比如说无关的数据、重复的数据、噪音数据等,这些数据如果不进行清洗,就容易对后续的数据分析结果产生误导。

①对于重复值的处理

步骤如下:

利用DataFrame中的duplicated方法返回一个布尔型的Series,显示是否有重复行。没有显示FALSE,有则从重复的第二行起显示为TRUE

再利用DataFrame中的drop_duplicates方法返回一个移除了重复行的DataFrame

duplicated的格式:

duplicated(subset=None,keep='first')

括号中的参数均为可选,不写默认判断全部列

subset用于识别重复的列标签或列标签序号,默认是所有的列标签

keep为first表示除了第一次出现外,其余相同的数据被标记为重复;为last表示除了最后一次外,其余相同的数据被标记为重复;为false表示所有相同的数据都被标记为重复

drop_duplicates的格式:

drop_duplicates()

如果你想指定某个列就在括号里加入列名即可

from pandas import DataFrame

from pandas import Series

#造数据

df=DataFrame({'age':Series([26,85,85]),'name':Series(['xiaoqiang1','xiaoqiang2','xiaoqiang2'])})

df

#判断是否有重复行

df.duplicated()

#移除重复行

df.drop_duplicates()

②对于缺失值的处理

缺失值的处理一般包括两个步骤,分别是缺失数据的识别和缺失数据的处理。

缺失数据的识别

pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据,并使用isnull和notnull函数来判断缺失情况。

#缺失数据的识别

from pandas import DataFrame

from pandas import read_excel

#有缺失数据

df=read_excel(r'D:python_workspaceanacondarz.xlsx',sheetname='Sheet2')

df

#识别缺失数据,NaN的就会显示True。notnull函数正好相反

df.isnull()

缺失数据的处理

对于缺失数据的处理有数据补齐、删除对应的行、不处理。

#去除数据中值为空的数据行

newdf=df.dropna()

newdf

#用其他数值代替NaN

newdf2=df.fillna('--')

newdf2

#用前一个数据值代替NaN

newdf3=df.fillna(method='pad')

newdf3

#用后一个数据值代替NaN

newdf4=df.fillna(method='bfill')

newdf4

#传入一个字典对不同的列填充不同的值

newdf5=df.fillna({'数分':100,'高代':99})

newdf5

#用平均数来代替NaN。会自动计算有NaN两列的数据的平均数

newdf6=df.fillna(df.mean())

newdf6

#还可以使用strip()来去除数据左右的指定字符

以上就是关于Python大数据培训视频之数据处理代码实战的内容分享了。使用Python做大数据分析,对于数据处理这一块,是重点,要牢牢学习掌握。成都加米谷大数据,专业大数据培训机构,Python大数据分析与挖掘,零基础班正在招生中,课程大纲及试学视频可联系客服了解!
热点排行
推荐文章
立即申请>>