大数据挖掘培训：经典数据挖掘算法总结

作者：张老师浏览次数： 2020-02-25 18:33

大数据就业的两个重要方向，一个是大数据开发，另一个是数据分析与挖掘。数据分析与挖掘，相对于开发来说，更多地偏向于业务，对于技术要求稍低一些，因此也是很多人入行大数据的首选。在大数据挖掘培训当中，数据挖掘算法是非常重要的一部分，今天我们就来对经典数据挖掘算法做一个简单的总结。

①C4.5算法。

C4.5算法与ID3算法一样，都是数学分类算法，C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断，而C4.5采用的是增益率。

②CART算法。

CART算法的全称是分类回归树算法，是一个二元分类，采用的是类似于熵的基尼指数作为分类决策，形成决策树后之后还要进行剪枝。

③Naive Bayes(朴素贝叶斯)算法。

朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法，用到了一个比较重要的贝叶斯定理，用一句简单的话概括就是条件概率的相互转换推导。

④SVM(支持向量机)算法。

支持向量机算法是一种对线性和非线性数据进行分类的方法，非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。

⑤EM(期望最大化)算法。

期望最大化算法，可以拆分为2个算法，1个E-Step期望化步骤和1个M-Step最大化步骤。他是一种算法框架，在每次计算结果之后，逼近统计模型参数的最大似然或最大后验估计。

⑥Apriori算法。

Apriori算法是关联规则挖掘算法，通过连接和剪枝运算挖掘出频繁项集，然后根据频繁项集得到关联规则，关联规则的导出需要满足最小置信度的要求。

⑦FP-Tree(频繁模式树)算法。

这个算法也有被称为FP-growth算法，克服了Apriori算法的产生过多侯选集的缺点，通过递归的产生频度模式树，然后对树进行挖掘，后面的过程与Apriori算法一致。

⑧K-Means(K均值)算法。

K-Means算法是聚类算法，k在这里指的是分类的类型数，所以在开始设定的时候非常关键，算法的原理是首先假定k个分类点，然后根据欧式距离计算分类，然后去同分类的均值作为新的聚簇中心，循环操作直到收敛。

⑨BIRCH算法。

BIRCH算法利用构建CF聚类特征树作为算法的核心，通过树的形式，BIRCH算法扫描数据库，在内存中建立一棵初始的CF-树，可以看做数据的多层压缩。

⑩AdaBoost算法。

AdaBoost算法是一种提升算法，通过对数据的多次训练得到多个互补的分类器，然后组合多个分类器，构成一个更加准确的分类器。

以上就是大数据挖掘培训当中经常会用到的经典数据挖掘算法了，在实际的数据分析挖掘工作当中，往往需要操作者根据实际的数据情况和数据处理需求来决定，哪种数据挖掘算法更加适用。成都加米谷大数据，专业大数据培训机构，数据分析与挖掘周末班正在招生中，详情可联系客服了解！

标签：大数据培训数据挖掘数据挖掘算法

上一篇：零基础大数据培训：大数据学习路线规划
下一篇：大数据培训课程：Java基础入门

相关推荐

大家都在看

热点排行

推荐文章