主页 > 新闻资讯 > Spark框架介绍:Spark架构体系详解

Spark框架介绍:Spark架构体系详解

作者:张老师 浏览次数: 2020-02-06 17:38
在大批量的数据处理上,我们必须依靠大数据处理框架来进行,比方说Hadoop、Spark、Storm等等,作为数据处理框架,都有各自的优势所在。今天,我们以Spark为例,来看看Spark框架介绍以及Spark架构体系详解。

Spark的设计思想,同样是基于分布式理论,将大规模的数据处理任务分解到集群环境当中来执行,Spark扩展了广泛使用的MapReduce计算模型,支持更多计算模式,包括迭代算法、交互式查询和流处理等,从而实现了Spark更灵活的场景运用。

Spark框架介绍

Spark支持多种接口调用,除了基于Python、Java、Scala和SQL的简单易用的API,还能和其他大数据工具协同使用,大大提升数据处理任务的可实现性。举个典型的例子,Spark可以运行在Hadoop上,并且访问集群环境当中的各种数据源。

Spark可以被理解为是一个大一统的软件栈,各个系统组件,分别运行与集群环境当中,进行调度、分发以及监控。

Spark Core,是Spark的核心,主要负责SparkContext的初始化、部署模式、存储体系、任务提交与执行、计算引擎等;

Spark SQL,提供SQL查询功能,主要负责关系型数据库的交互查询;

Spark Streaming,Spark的流处理,支持Kafka、Flume、Twitter、MQTT、ZeroMQ、Kinesis等多种数据源;

GraphX,图形计算框架,提供图计算处理能力;

MLlib,机器学习框架,提供机器学习相关的统计、分类、回归、聚类等领域的多种算法实现。

这些组件共同完善了Spark生态圈,使用Spark,可以实现MapReduce应用;基于Spark,Spark SQL可以实现即席查询,Spark Streaming可以处理实时应用,MLib可以实现机器学习算法,GraphX可以实现图计算,SparkR可以实现复杂数学计算。

以上就是关于Spark框架介绍的详细内容了,Spark架构体系,其实从理论上来说是非常清晰明了的,但是要掌握这些技术,还需要深入的学习和实践才行。成都加米谷大数据,专业大数据培训机构,大数据开发Spark培训班,正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>