主页 > 新闻资讯 > 大数据挖掘培训:经典数据挖掘算法总结

大数据挖掘培训:经典数据挖掘算法总结

作者:张老师 浏览次数: 2020-02-25 18:33
大数据就业的两个重要方向,一个是大数据开发,另一个是数据分析与挖掘。数据分析与挖掘,相对于开发来说,更多地偏向于业务,对于技术要求稍低一些,因此也是很多人入行大数据的首选。在大数据挖掘培训当中,数据挖掘算法是非常重要的一部分,今天我们就来对经典数据挖掘算法做一个简单的总结。

大数据挖掘培训

①C4.5算法。

C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断,而C4.5采用的是增益率。

②CART算法。

CART算法的全称是分类回归树算法,是一个二元分类,采用的是类似于熵的基尼指数作为分类决策,形成决策树后之后还要进行剪枝。

③Naive Bayes(朴素贝叶斯)算法。

朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话概括就是条件概率的相互转换推导。

④SVM(支持向量机)算法。

支持向量机算法是一种对线性和非线性数据进行分类的方法,非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。

⑤EM(期望最大化)算法。

期望最大化算法,可以拆分为2个算法,1个E-Step期望化步骤和1个M-Step最大化步骤。他是一种算法框架,在每次计算结果之后,逼近统计模型参数的最大似然或最大后验估计。

⑥Apriori算法。

Apriori算法是关联规则挖掘算法,通过连接和剪枝运算挖掘出频繁项集,然后根据频繁项集得到关联规则,关联规则的导出需要满足最小置信度的要求。

⑦FP-Tree(频繁模式树)算法。

这个算法也有被称为FP-growth算法,克服了Apriori算法的产生过多侯选集的缺点,通过递归的产生频度模式树,然后对树进行挖掘,后面的过程与Apriori算法一致。

⑧K-Means(K均值)算法。

K-Means算法是聚类算法,k在这里指的是分类的类型数,所以在开始设定的时候非常关键,算法的原理是首先假定k个分类点,然后根据欧式距离计算分类,然后去同分类的均值作为新的聚簇中心,循环操作直到收敛。

⑨BIRCH算法。

BIRCH算法利用构建CF聚类特征树作为算法的核心,通过树的形式,BIRCH算法扫描数据库,在内存中建立一棵初始的CF-树,可以看做数据的多层压缩。

⑩AdaBoost算法。

AdaBoost算法是一种提升算法,通过对数据的多次训练得到多个互补的分类器,然后组合多个分类器,构成一个更加准确的分类器。

以上就是大数据挖掘培训当中经常会用到的经典数据挖掘算法了,在实际的数据分析挖掘工作当中,往往需要操作者根据实际的数据情况和数据处理需求来决定,哪种数据挖掘算法更加适用。成都加米谷大数据,专业大数据培训机构,数据分析与挖掘周末班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>