主页 > 新闻资讯 > 大数据处理培训:大数据处理系统框架如何选择

大数据处理培训:大数据处理系统框架如何选择

作者:张老师 浏览次数: 2020-04-08 18:10
大批量的数据要实现数据分析和处理,依赖于大数据处理系统框架,而主流的系统框架不少,在面对实际的数据处理需求时,需要根据实际的状况来判断,选择更优的解决档案。今天的大数据处理培训课程分享,我们来聊聊大数据处理系统框架如何选择。

通常来说,大数据处理遵循一定的流程,首先接入数据到系统中,然后将数据持久化到存储系统,接着计算和分析数据,然后展示结果(可视化),在这个流程当中的不同环节,都需要大数据技术框架的支持。

大数据处理培训

大数据处理框架的选择,我们可以从两个角度来理解——

一、对于初学者

由于Apache Hadoop在大数据领域的广泛使用,因此仍推荐作为初学者学习数据处理框架的首选。虽然MapReduce因为性能原因以后的应用会越来越少,但是YARN和HDFS依然作为其他框架的基础组件被大量使用(比如HBase依赖于HDFS,YARN可以为Spark、Samza等框架提供资源管理)。学习Hadoop可以为以后的进阶打下基础。

接着,Apache Spark在目前的企业应用中应该是当之无愧的王者。在批处理领域,虽然Spark与MapReduce的市场占有率不相上下,但Spark稳定上升,而MapReduce却稳定下降。而在流处理领域,Spark Streaming与另一大流处理系统Apache Storm共同占据了大部分市场。

除了可用于批处理和流处理系统,Spark还支持交互式查询、图计算和机器学习。Spark在未来几年内仍然会是大数据处理的主流框架,推荐同学们认真学习。

另一个作为混合处理框架的Apache Flink则潜力无限,被称作“下一代数据处理框架”,如果Flink能在商业应用上有突出表现,则可能挑战Spark的地位。

二、对于企业应用

如果企业中只需要批处理工作,并且对时间并不敏感,那么可以使用成本较其他解决方案更低的Hadoop集群。

如果企业仅进行流处理,并且对低延迟有着较高要求,Storm更加适合,如果对延迟不非常敏感,可以使用Spark Streaming。

如果需要同时兼顾批处理与流处理任务,那么Spark是一个很好的选择。而Flink提供了真正的流处理能力并且同样具备批处理能力,但目前还在探索当中,后续的发展有待进一步观察。

关于大数据处理培训,大数据处理系统框架如何选择,以上就是给大家分享的一些知识点了。大数据培训学习当中,对大数据系统框架的学习是重点,也是大家学习的难点,需要多上心才行。加米谷大数据,成都大数据培训机构,大数据开发培训班,本月正在招生中,课程大纲及学习资料可联系客服领取!
热点排行
推荐文章
立即申请>>