主页 > 新闻资讯 > 大数据spark培训班:Spark技术栈简介

大数据spark培训班:Spark技术栈简介

作者:张老师 浏览次数: 2020-05-27 15:30
在大数据技术框架的流变当中,Spark无疑是Hadoop之后崛起的“王者”。Hadoop解决了离线批处理的需求,但是面对越来越普遍的实时处理需求,Hadoop开始被抛弃,Spark后来居上。今天的大数据spark培训班分享,我们来对Spark技术栈做一个简单的介绍。

Spark继承了Hadoop MapReduce的计算模型,但是在此基础之上,基于内存计算,大大提升了计算效率,Spark强大的性能和易用性使其获得了明显的竞争优势。

大数据spark培训班

并且,Spark与Hadoop基础架构能够实现很好的协同,这使得Spark在行业当中快速占领市场。同时,Spark提供Java、Scala、Python、R四种语言的API接口,也使得技术开发人员能够更快地上手。

Spark生态,以Spark Core为核心,Spark SQL提供交互式查询,Spark Streaming满足实时流数据处理需求,Spark MLlib提供机器学习框架,Spark Graphx提供图计算框架。

Spark SQL:

Spark SQL可以通过JDBC API将Spark数据集暴露出去,也可以用传统的BI和可视化工具在Spark数据上执行类似SQL的查询。用户还可以用Spark SQL对不同格式的数据(如JSON,Parquet以及数据库等)执行ETL,将其转化,然后暴露给特定的查询。

Spark Streaming:

Spark Streaming基于微批量方式的计算和处理,可以用于处理实时的流数据。

Spark MLlib:

MLlib是一个可扩展的Spark机器学习库,由通用的学习算法和工具组成,包括二元分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语等。

Spark GraphX:

GraphX是用于图计算和并行图计算的 API,通过引入弹性分布式属性图(Resilient Distributed Property Graph),扩展了Spark RDD。

除此之外,Spark还有一些其他的库,如BlinkDB和Tachyon。

BlinkDB是一个近似查询引擎,用于在海量数据上执行交互式SQL查询。

Tachyon是一个以内存为中心的分布式文件系统,能够提供内存级别速度的跨集群框架(如Spark和MapReduce)的可信文件共享。

关于大数据spark培训班,Spark技术栈,以上就为大家做了一个简单的介绍了。在大数据技术框架当中,Spark的地位不容忽视,学习大数据,必学Spark。成都加米谷大数据,专业大数据培训机构,Spark大数据开发,零基础小班课程,本月正在招生中,课程大纲可联系客服获取!
热点排行
推荐文章
立即申请>>