主页 > 新闻资讯 > 大数据挖掘培训班之决策树算法讲解

大数据挖掘培训班之决策树算法讲解

作者:张老师 浏览次数: 2020-06-08 16:52
大数据之所以得到重视,还是源于海量数据当中蕴含的价值,而这些数据价值并非轻易能够得到的,需要通过大数据挖掘来获取到相应的价值线索,而大数据挖掘也就涉及到数据挖掘算法。今天的大数据挖掘培训班分享,我们主要来聊聊大家都听过的决策树算法。

大数据挖掘,主要用到的就是算法,依赖于算法从海量的数据当中,提取出隐藏的线索和潜在的有用的信息。

大数据挖掘培训班

决策树可以说是非常有名的一种算法,尤其是是统计分析和机器学习领域,决策树在解决分类问题上,具有明显的优势。

决策树,顾名思义,它正像一棵大树一样,由根部不断生长出很多枝叶。决策树的应用,需要根据实际需求来进行选择,是单棵决策树,还是适当地进行组合。

单棵决策树,一棵大树上每支叶子自成一类。在实际业务中,大家最关心的问题包括:在每一个节点该选择哪个属性进行分割?该怎样分割才能效果最好?

这些问题通常都可以通过SAS Enterprise Miner中强大的交互决策树功能解决,选择最大的logworth值来选择拆分变量、创建拆分规则。

不过,这样的分类过程到底应该在什么时候结束呢?最直观的方式当然是在每个子节点只有一种类型的记录时停止分类,但是这样可能会使得树的节点过多,导致过拟合问题(overfitting),即该决策树对训练数据可以得到很低的错误率,但是运用到验证数据上时却错误率极高。

所以,剪枝是优化和解决这类问题的必要做法,对原始决策树进行验证和裁减,从而得到最优决策树。单棵决策树的实现在SAS Enterprise Miner中有现成的节点可直接使用。

除了剪枝、交叉验证等手段外,为了有效减少单决策树带来的问题,与决策树相关的组合分类(比如Bagging,Boosting等算法)也逐渐被引入进来,这些算法的精髓都是通过生成N棵树(N可能高达几百)、最终形成一棵最适合的结果分类树。

关于大数据挖掘培训班,决策树算法讲解,以上就为大家做了一个简单的入门介绍了。大数据挖掘对于算法的重视是明显的,决策树也是大数据分析挖掘当中必须掌握的一种重要算法。加米谷大数据,成都大数据培训机构,大数据分析与挖掘,小班面授课程,本月正在招生中,课程大纲及学习资料可联系客服获取!
热点排行
推荐文章
立即申请>>