主页 > 新闻资讯 > Spark大数据培训:Spark技术栈简析

Spark大数据培训:Spark技术栈简析

作者:张老师 浏览次数: 2020-06-11 17:26
在大数据技术框架当中,除开Hadoop之外,就是Spark了。针对大部分的企业数据需求,Hadoop+Spark都能实现。也因此在行业当中,Hadoop大数据培训和Spark大数据培训是非常重要的两个方向。今天的Spark大数据培训分享,我们就来做个Spark技术栈简析。

Spark可以理解为一个大一统的技术栈,围绕Spark Core,将批处理、迭代算法、交互式查询、流处理等需求统一到一个统一的框架下,这各种处理流程整合到一起,大大减轻了大数据平台管理和运维的负担。

Spark大数据培训

本质上来说,Spark是对Hadoop MapReduce框架的一种优化实现,扩展了MapReduce单一的Map+Reduce模型,支持更多计算模式,也更能满足大数据处理的更多实际需求。

另外,Spark还提供丰富的接口,除了提供基于Python、Java、Scala和SQL的简单易用的API以及内建的丰富的程序库以外,Spark还能和其他大数据工具密切配合使用。例如,Spark可以运行在Hadoop集群上,访问包括Cassandra在内的任意Hadoop数据源。

Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。

由于Spark的核心引擎有着速度快和通用的特点,因此Spark还支持为各种不同应用场景专门设计的高级组件,比如SQL和机器学习等。这些组件关系密切并且可以相互调用,这也使得开发难度降低。

Spark Core:Spark的核心功能实现,包括:Spark Context的初始化(Driver Application通过Spark Context提交)、部署模式、存储体系、任务提交与执行、计算引擎等。

Spark SQL:提供SQL处理能力,便于熟悉关系型数据库操作的工程师进行交互查询。

Spark Streaming:提供流式计算处理能力,目前支持Kafka、Flume、Twitter、MQTT、ZeroMQ、Kinesis和简单的TCP套接字等数据源。

GraphX:提供图计算处理能力。

MLlib:提供机器学习相关的统计、分类、回归、聚类等领域的多种算法实现。

关于Spark大数据培训,Spark技术栈,以上就为大家做了一个简单的介绍。大数据在快速发展当中,基于实际的数据处理需求,Spark能够提供稳定可靠的支持,作为技术人员,掌握Spark技术栈是基本要求。加米谷大数据,成都大数据培训机构,Spark大数据开发班,本月正在招生中,课程大纲及试学视频可联系客服获取!
热点排行
推荐文章
立即申请>>