主页 > 新闻资讯 > 大数据spark培训课程:Spark生态圈简介

大数据spark培训课程:Spark生态圈简介

作者:张老师 浏览次数: 2020-04-16 15:20
在大数据处理的平台框架当中,Spark可以说是越来越受到青睐,尤其是在面对大规模实时计算任务,Spark的性能表现尤其值得表扬,因此在企业大数据平台开发当中,Spark应用也越来越多。今天的大数据spark培训课程介绍,我们来对Spark生态圈做一个简单的介绍。

Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,在设计研发之初,Spark的目的之一就在于计算速度的提升,因为在早期的Hadoop平台下,MapReduce基于磁盘进行计算,因此在执行计算任务时,有比较大的数据延迟,逐渐不能满足实时的需求。

大数据spark培训课程

基于这样的背景,Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。

Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。

Spark让开发者可以快速的用Java、Scala或Python编写程序。它本身自带了一个超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。

除了Map和Reduce操作之外,它还支持SQL查询,流数据,机器学习和图表数据处理。开发者可以在一个数据管道用例中单独使用某一能力或者将这些能力结合在一起使用。

除了Spark核心API之外,Spark生态系统中还包括其他附加库,可以在大数据分析和机器学习领域提供更多的能力。这些库包括:

Spark Streaming:基于微批量方式的计算和处理,可以用于处理实时的流数据。它使用DStream,简单来说就是一个弹性分布式数据集(RDD)系列,处理实时数据。

Spark SQL:可以通过JDBC API将Spark数据集暴露出去,而且还可以用传统的BI和可视化工具在Spark数据上执行类似SQL的查询。用户还可以用Spark SQL对不同格式的数据(如JSON,Parquet以及数据库等)执行ETL,将其转化,然后暴露给特定的查询。

Spark MLlib:MLlib是一个可扩展的Spark机器学习库,由通用的学习算法和工具组成,包括二元分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语。

Spark GraphX:GraphX是用于图计算和并行图计算的新的(alpha)Spark API。此外,GraphX还包括一个持续增长的用于简化图分析任务的图算法和构建器集合。

关于大数据spark培训课程分享,以上就是对Spark生态圈的简单介绍了,Spark是当前大数据领域不可或缺的数据处理框架,学习大数据,Spark是重点部分,也是难点部分,需要着重学习掌握。成都加米谷大数据,专业大数据培训机构,Spark大数据培训班,本月正在招生中,课程大纲及试学视频可联系客服获取!
热点排行
推荐文章
立即申请>>