主页 > 新闻资讯 > Spark 入门菜鸟教程:Spark框架核心简介

Spark 入门菜鸟教程:Spark框架核心简介

作者:张老师 浏览次数: 2020-02-10 15:09
作为目前主流的大数据计算引擎之一,Spark无疑受到了广泛的关注和重视,尤其是因为Spark在一定程度上弥补了早期的Hadoop大数据计算的局限性,所以在后来的大数据计算引擎市场上,获得了更大的认可。今天我们从Spark 入门菜鸟教程的角度,来聊聊Spark框架核心简介。

Spark计算引擎,快速、通用是最大的特征。经过近几年的不断发展和完善,已经形成了相对完善的大数据系统结构,包括多个核心组件,共同完成大数据计算的相关的任务。

Spark 入门

Spark基于内存进行计算,对于大规模数据的并行运算,尤其具有经验。Spark生态系统包括SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目,在Spark这个统一的框架去,去支持不同的计算,包括批处理、迭代算法、交互式查询、流处理等。

Spark基于分布式平台,以一个大一统的软件栈来统筹,简单而低耗地把各种处理流程整合在一起,大大减轻了原先需要对各种平台分别管理的负担,对于平台的整体性能提升有明显的好处。

Spark各个组件关系密切并且可以相互调用,这使得软件栈中所有的程序库和高级组件都可以从下层的改进中获益,系统的部署、维护、测试、支持等大大缩减,能够构建出无缝整合不同处理模型的应用。

Spark核心内置项目,是Spark Core。Spark Core承担Spark系统基本功能能先,包括任务调度、内存管理、错误恢复、与存储系统交互等。

Spark SQL,是Spark用来操作结构化数据的程序包,通过Spark SQL,可以实现数据查询,并且支持多种数据源,包括Hive表、Parquet以及JSON等。

Spark Streaming,是实时数据流式计算的组件,提供操作数据流的API,与Spark Core中的RDD API高度对应,实现快速高效的流处理。

Spark MLlib,机器学习功能的程序库,提供分类、回归、聚类、协同过滤等。

以上就是今天的Spark 入门菜鸟教程关于Spark框架核心的一些介绍,在大数据技术学习阶段,掌握Spark框架技术是必须的,这在未来的大数据工作当中,至关重要。成都加米谷大数据,大数据技术知识分享,专业大数据培训班,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>