在大数据技术框架的流变当中,Spark无疑是Hadoop之后崛起的“王者”。Hadoop解决了离线批处理的需求,但是面对越来越普遍的实时处理需求,Hadoop开始被抛弃,Spark后来居上。今天的大数据spark培训班分享,我们来对Spark技术栈做一个简单的介绍。
Spark继承了Hadoop MapReduce的计算模型,但是在此基础之上,基于内存计算,大大提升了计算效率,Spark强大的性能和易用性使其获得了明显的竞争优势。
并且,Spark与Hadoop基础架构能够实现很好的协同,这使得Spark在行业当中快速占领市场。同时,Spark提供Java、Scala、Python、R四种语言的API接口,也使得技术开发人员能够更快地上手。
Spark生态,以Spark Core为核心,Spark SQL提供交互式查询,Spark Streaming满足实时流数据处理需求,Spark MLlib提供机器学习框架,Spark Graphx提供图计算框架。
Spark SQL:
Spark SQL可以通过JDBC API将Spark数据集暴露出去,也可以用传统的BI和可视化工具在Spark数据上执行类似SQL的查询。用户还可以用Spark SQL对不同格式的数据(如JSON,Parquet以及数据库等)执行ETL,将其转化,然后暴露给特定的查询。
Spark Streaming:
Spark Streaming基于微批量方式的计算和处理,可以用于处理实时的流数据。
Spark MLlib:
MLlib是一个可扩展的Spark机器学习库,由通用的学习算法和工具组成,包括二元分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语等。
Spark GraphX:
GraphX是用于图计算和并行图计算的 API,通过引入弹性分布式属性图(Resilient Distributed Property Graph),扩展了Spark RDD。
除此之外,Spark还有一些其他的库,如BlinkDB和Tachyon。
BlinkDB是一个近似查询引擎,用于在海量数据上执行交互式SQL查询。
Tachyon是一个以内存为中心的分布式文件系统,能够提供内存级别速度的跨集群框架(如Spark和MapReduce)的可信文件共享。
关于大数据spark培训班,Spark技术栈,以上就为大家做了一个简单的介绍了。在大数据技术框架当中,Spark的地位不容忽视,学习大数据,必学Spark。成都加米谷大数据,专业
大数据培训机构,Spark大数据开发,零基础小班课程,本月正在招生中,课程大纲可联系客服获取!