主页 > 新闻资讯 > 大数据分析培训内容之大数据分析计算框架

大数据分析培训内容之大数据分析计算框架

作者:张老师 浏览次数: 2020-06-15 18:21
大数据来势汹汹,企业基于大数据业务的开展,也需要更多的专业人才支持,不少企业都开始组建自己的大数据技术团队,大数据开发、大数据挖掘、大数据分析,都是不可或缺的岗位。今天的大数据分析培训内容分享,我们主要来聊聊大数据分析计算框架。

在大数据时代,人们迫切希望在由普通机器组成的大规模集群上实现高性能的以机器学习算法为核心的数据分析,为实际业务提供服务和指导,进而实现数据的最终变现。

大数据分析培训内容

理想的大数据分析系统的设计和其他计算系统的设计有很大不同,直接应用传统的分布式计算系统应用于大数据分析,很大比例的资源都浪费在通信、等待、协调等非有效的计算上。

传统的分布式计算框架MPI(message passing interface,信息传递接口)虽然编程接口灵活功能强大,但由于编程接口复杂且对容错性支持不高,无法支撑在大规模数据上的复杂操作,研究人员转而开发了一系列接口简单容错性强的分布式计算框架服务于大数据分析算法,以MapReduce、Spark和参数服务器ParameterServer等为代表。

分布式计算框架MapReduce将对数据的处理归结为Map和Reduce两大类操作,从而简化了编程接口并且提高了系统的容错性。

但是MapReduce受制于过于简化的数据操作抽象,而且不支持循环迭代,因而对复杂的机器学习算法支持较差,基于MapReduce的分布式机器学习库Mahout需要将迭代运算分解为多个连续的Map和Reduce操作,通过读写HDFS文件方式将上一轮次循环的运算结果传入下一轮完成数据交换。在此过程中,大量的训练时间被用于磁盘的读写操作,训练效率非常低效。

为了解决MapReduce上述问题,Spark基于RDD定义了包括Map和Reduce在内的更加丰富的数据操作接口。不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,这些特性使得Spark能更好地适用于数据挖掘与机器学习等需要迭代的大数据分析算法。

关于大数据分析培训内容,大数据分析计算框架,以上就为大家做了一个简单的介绍了。大数据分析,对于企业大数据的价值挖掘而言,是关键性的岗位人才,技术过硬,才能真正解决实际问题。加米谷大数据,成都大数据培训机构,零基础大数据分析班,本月正在招生中,课程大纲及试听课程可联系客服领取!
热点排行
推荐文章
立即申请>>