Hadoop Spark入门：Spark大数据开发学习

作者：张老师浏览次数： 2020-02-20 18:32

关于Hadoop和Spark，一直以来都是存在不小的争议的，尤其是在Spark红火的那些年，风头盖过Hadoop，屡屡穿出Spark将会替代Hadoop的说法。但是在实际的额发展当中，近几年的趋势，Hadoop Spark更多是走向集成开发的方向。今天我们就来说说Hadoop Spark入门学习怎么学？

Hadoop与Spark之间，其实并不能完全对等为大数据计算引擎，Spark真正同级别的竞争对手，其实是MapReduce。，而Spark在计算上的性能提升，也是因为对MapReduce模型进行了优化。

MapReduce计算框架在Map和Reduce阶段存在大量的shuffle操作以及IO操作，导致MapReduce的效率一直被吐槽，而Spark计算框架一定程度下减了shuffle及写入磁盘操作，以此来提升运行速度。

Hadoop Spark合作，借助于Yarn实现资源调度管理，借助HDFS实现分布式存储，而计算由Spark程序来执行。Hadoop程序运行，Resource Manager+Application Master+Node Manager，实现了存储和计算的解耦合，并且实现了Container中计算引擎的可插拔替换，因此MapReduce以及Spark甚至是其他的分布式计算引擎也能基于Hadoop集群进行计算。

Hadoop Spark入门，必须要掌握核心四大组件——

Spark Core：实现Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。

Spark SQL：支持使用SQL或者Apache Hive版本的SQL方言(HQL)来查询数据，并且支持多种数据源，比如Hive表、Parquet以及JSON等。

Spark Streaming：支持实时数据流计算，提供用来操作数据流的API，与Spark Core中的RDD API高度对应。

Spark ML：提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。

另外，Spark还提供集群管理器，支持在各种集群管理器(Cluster Manager)上运行，包括Hadoop YARN、Apache Mesos，甚至可以在Spark自带的简易调度器上运行。

关于Hadoop Spark入门，以上就是今天的内容分享了。一定程度上来说，Spark是对于Hadoop MapReduce计算框架的补充，针对于实时数据流计算，Hadoop Spark集成运用，能够给出更佳的解决方案。成都加米谷大数据，大数据知识分享，大数据开发培训，撩客服可获免费学习资料哦！

标签：大数据开发 Spark大数据 Hadoop大数据

上一篇：Hadoop数据库：Hadoop数据存储实现解析
下一篇：HDFS是什么数据库？关于Hadoop HDFS的简介

相关推荐

大家都在看

热点排行

推荐文章