主页 > 新闻资讯 > 大数据分析培训教程:数据挖掘入门简介

大数据分析培训教程:数据挖掘入门简介

作者:张老师 浏览次数: 2020-03-18 19:03
进入大数据时代,大数据的主要发展方向,分为大数据开发和大数据分析两个,其中大数据分析,又分为数据分析和数据挖掘两个细分方向,各自的技能需求也有一定的不同。今天的大数据分析培训教程,我们来做一个简单的数据挖掘入门简介。

大数据分析培训教程

首先,什么是数据挖掘?

数据挖掘就是指从数据中获取知识,至于获取什么知识,则取决于实际的需求,但是对于如何开发一个大数据环境下完整的数据挖掘项目,业界至今仍没有统一的规范。

数据挖掘的起源,由于数据挖掘理论涉及到的面很广,它实际上起源于多个学科。如建模部分主要起源于统计学和机器学习。统计学方法以模型为驱动,常常建立一个能够产生数据的模型;而机器学习则以算法为驱动,让计算机通过执行算法来发现知识。仔细想想,"学习"本身就有算法的意思在里面嘛。

数据挖掘的基本任务

数据挖掘的两大基本目标是预测和描述数据。其中前者的计算机建模及实现过程通常被称为监督学习(supervised learning),后者的则通常被称为无监督学习(supervised learning)。

预测主要包括分类-将样本划分到几个预定义类之一,回归-将样本映射到一个真实值预测变量上;描述主要包括聚类-将样本划分为不同类(无预定义类),关联规则发现-发现数据集中不同特征的相关性。

数据挖掘的基本流程

从形式上来说,数据挖掘的开发流程是迭代式的。开发人员通过如下几个阶段对数据进行迭代式处理:

1.解读需求

绝大多数的数据挖掘工程都是针对具体领域的,因此数据挖掘工作人员不应该沉浸在自己的世界里YY算法模型,而应该多和具体领域的专家交流合作以正确的解读出项目需求。这种合作应当贯穿整个项目生命周期。

2.搜集数据

在大型公司,数据搜集大都是从其他业务系统数据库提取。很多时候我们是对数据进行抽样,在这种情况下必须理解数据的抽样过程是如何影响取样分布,以确保评估模型环节中用于训练(train)和检验(test)模型的数据来自同一个分布。

3.预处理数据

预处理数据可主要分为数据准备和数据归约两部分。其中前者包含了缺失值处理、异常值处理、归一化、平整化、时间序列加权等;而后者主要包含维度归约、值归约、以及案例归约。

4.评估模型

确切来说,这一步就是在不同的模型之间做出选择,找到最优模型。很多人认为这一步是数据挖掘的全部,但显然这是以偏概全的,甚至绝大多数情况下这一步耗费的时间和精力在整个流程里是最少的。

5.解释模型

数据挖掘模型在大多数情况下是用来辅助决策的,人们显然不会根据"黑箱模型"来制定决策。如何针对具体环境对模型做出合理解释也是一项非常重要的任务。

今天的大数据分析培训教程,数据挖掘入门简介,以上就是详细的介绍了。大数据分析正在成为行业当中普遍需求的技能,未来也将迎来更多的发展机会,数据挖掘是大数据分析的重要方向,前景同样可期。成都加米谷大数据,专业大数据培训机构,数据分析与挖掘零基础培训班,3月即将开班,课程详情可联系客服了解!
热点排行
推荐文章
立即申请>>