主页 > 新闻资讯 > Hadoop Spark入门:Spark大数据开发学习

Hadoop Spark入门:Spark大数据开发学习

作者:张老师 浏览次数: 2020-02-20 18:32
关于Hadoop和Spark,一直以来都是存在不小的争议的,尤其是在Spark红火的那些年,风头盖过Hadoop,屡屡穿出Spark将会替代Hadoop的说法。但是在实际的额发展当中,近几年的趋势,Hadoop Spark更多是走向集成开发的方向。今天我们就来说说Hadoop Spark入门学习怎么学?

Hadoop与Spark之间,其实并不能完全对等为大数据计算引擎,Spark真正同级别的竞争对手,其实是MapReduce。,而Spark在计算上的性能提升,也是因为对MapReduce模型进行了优化。

Hadoop Spark入门

MapReduce计算框架在Map和Reduce阶段存在大量的shuffle操作以及IO操作,导致MapReduce的效率一直被吐槽,而Spark计算框架一定程度下减了shuffle及写入磁盘操作,以此来提升运行速度。

Hadoop Spark合作,借助于Yarn实现资源调度管理,借助HDFS实现分布式存储,而计算由Spark程序来执行。Hadoop程序运行,Resource Manager+Application Master+Node Manager,实现了存储和计算的解耦合,并且实现了Container中计算引擎的可插拔替换,因此MapReduce以及Spark甚至是其他的分布式计算引擎也能基于Hadoop集群进行计算。

Hadoop Spark入门,必须要掌握核心四大组件——

Spark Core:实现Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。

Spark SQL:支持使用SQL或者Apache Hive版本的SQL方言(HQL)来查询数据,并且支持多种数据源,比如Hive表、Parquet以及JSON等。

Spark Streaming:支持实时数据流计算,提供用来操作数据流的API,与Spark Core中的RDD API高度对应。

Spark ML:提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。

另外,Spark还提供集群管理器,支持在各种集群管理器(Cluster Manager)上运行,包括Hadoop YARN、Apache Mesos,甚至可以在Spark自带的简易调度器上运行。

关于Hadoop Spark入门,以上就是今天的内容分享了。一定程度上来说,Spark是对于Hadoop MapReduce计算框架的补充,针对于实时数据流计算,Hadoop Spark集成运用,能够给出更佳的解决方案。成都加米谷大数据,大数据知识分享,大数据开发培训,撩客服可获免费学习资料哦!
热点排行
推荐文章
立即申请>>