主页 > 新闻资讯 > 数据挖掘算法选择:不同算法的应用场景

数据挖掘算法选择:不同算法的应用场景

作者:张老师 浏览次数: 2020-09-09 17:19
面对越来越大规模的数据,数据挖掘算法选择成为一个重要的环节,不同场景下的大数据,具有不同的数据类型和数据特征,想要实现高效的数据挖掘,那就需要选择更适用的算法。今天我们就主要来讲讲,数据挖掘算法选择,不同算法的应用场景。

通俗而言,算法是一个定义明确的计算过程,可以一些值或一组值作为输入并产生一些值或一组值作为输出。而对于不同算法的选择,需要根据数据特征和类型、数据需求,来综
合进行考量。

数据挖掘算法选择

这里我们选取比较有代表性的一些算法,来看看它们分别适用于什么样的场景:

1、C4.5算法

C4.5算法是机器学习算法中的一种分类决策树算法,是ID3算法的改进算法。常用于临床决策、生产制造、文档分析、生物信息学、空间数据建模等领域。

2、K平均算法

K平均算法(k-means algorithm)是一个聚类算法,把n的对象根据他们的属性分为k个分割,且k<n。常用于图片分割、归类商品和用户分析。

3、支持向量机算法

英文为Support Vector Machine,简记为SVM,是一种监督式学习的方法。广泛用于统计分类以及回归分析。

4、Apriori算法

Apriori算法是最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段“频繁项集”思想的递推算法。广泛应用于消费市场价格分析、入侵检测、移动通信领域等领域。

5、最大期望(EM)算法

EM算法是在概率模型中寻找最大似然估计(Maximum Likelihood Estimation,MLE)的算法,其中概率模型依赖于无法观测的隐藏变量。经常用在机器学习和计算机视觉的数据集聚领域。

6、佩奇排名(PageRank)算法

佩奇排名算法是谷歌创始人拉里·佩奇(Larry Page)在斯坦福大学读博士学位时开发的,PageRank的概念引自学术中一篇论文的被引述的频度——被别人引述的次数越多,一般判断这篇论文的权威性就越高。排名算法在搜索领域常用。

7、Adaboost算法

AdaBoost是“Adaptive Boosting”(自适应增强)的缩写,它是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。

8、k-近邻算法

K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。适合处理稀有事件的分类问题,例如客户流失预测、欺诈侦测等等。

9、朴素贝叶斯算法

朴素贝叶斯算法发源于古典数学理论,有坚实的数学基础,是除决策树模型之外应用最广的分类算法。常用于处理垃圾邮件过滤和文本分类。

10、分类与回归树算法

分类与回归树算法(CART)是分类数据挖掘算法的一种,常应用于信息失真识别、潜在客户识别、预测贷款风险等场景。

关于数据挖掘算法选择,不同算法的应用场景,以上就为大家做了简单的介绍了。数据挖掘在大数据处理当中,是不可或缺的关键一环,而想要做好数据挖掘,掌握好算法是必须的的。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析与挖掘,零基础学习班,本月正在招生中,课程大纲及试听课程,可联系客服获取!
热点排行
推荐文章
立即申请>>