主页 > 新闻资讯 > 大数据spark培训:Spark生态圈入门

大数据spark培训:Spark生态圈入门

作者:张老师 浏览次数: 2020-06-17 17:33
在大数据计算引擎当中,Spark可以说是企业非常青睐的一个技术框架,Spark继承了Hadoop MapReduce的优势,同时实现了计算效率的提升,这使得数据计算延迟性得到明显的改善,也更符合实际需求。今天的大数据spark培训分享,我们就来讲讲Spark生态圈入门。

Spark在设计之初,就是围绕速度、易用性和复杂分析来研发的,当时的背景下,就是MapReduce在实时数据处理上有明显的不足,已经很难满足很多业务场景下的需求。

大数据spark培训

而围绕Spark,也兴起了Spark生态圈,生态圈的各个组件,在Spark核心的支持下,能够满足更多实际业务场景下的数据处理需求。

Spark Streaming:

Spark Streaming基于微批量方式的计算和处理,可以用于处理实时的流数据。它使用DStream,简单来说就是一个弹性分布式数据集(RDD)系列,处理实时数据。

Spark SQL:

Spark SQL可以通过JDBC API将Spark数据集暴露出去,而且还可以用传统的BI和可视化工具在Spark数据上执行类似SQL的查询。用户还可以用Spark SQL对不同格式的数据(如JSON,Parquet以及数据库等)执行ETL,将其转化,然后暴露给特定的查询。

Spark MLlib:

MLlib是一个可扩展的Spark机器学习库,由通用的学习算法和工具组成,包括二元分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语。

Spark GraphX:

GraphX用于图计算和并行图计算。

以上四个可以说是生态圈的重点组件,除此之外,还有BlinkDB和Tachyon,也提供相关的技术支持。

BlinkDB是一个近似查询引擎,用于在海量数据上执行交互式SQL查询。BlinkDB可以通过牺牲数据精度来提升查询响应时间。通过在数据样本上执行查询并展示包含有意义的错误线注解的结果,操作大数据集合。

Tachyon是一个以内存为中心的分布式文件系统,能够提供内存级别速度的跨集群框架(如Spark和MapReduce)的可信文件共享。

关于大数据spark培训,Spark生态圈入门,以上就是今天的分享内容了。Spark在大数据领域当中,占据着明显的市场规模,而学习大数据,Spark极其生态圈,是需要掌握的重点内容之一。加米谷大数据,成都大数据培训机构,Spark大数据开发班,本月正在招生中,课程大纲及试学课程可联系客服获取!
热点排行
推荐文章
立即申请>>