主页 > 新闻资讯 > Spark实战:Spark如何实现数据处理

Spark实战:Spark如何实现数据处理

作者:张老师 浏览次数: 2020-02-12 15:32
Spark其实严格意义上来说,在大数据领域的发展历史不算长,尤其是在近几年,确实得到了很好的发展机会,国内外的大厂,在大数据计算框架上,多多少少都在用到Spark。作为大数据技术方向的从业人员,那么对Spark是必须要求掌握的。今天,我们就主要来聊聊Spark实战是如何实现数据处理的?

首先,提到Spark必然少不了的是Hadoop。Hadoop作为大数据领域资格最老的计算框架,虽然在某些数据处理场景上存在局限,但是作为一个大数据处理平台框架,目前来说还是具有不可替代性的。

Spark实战

Spark计算引擎,继承了Hadoop的MapReduce计算模式,并在此基础之上做了扩展,支持包括交互式查询和流处理在内的更多计算模式,满足了大数据不断发展下的新的数据趋势和处理需求。

Spark在数据处理上的优势就是快,而这个快来源于Spark的内存计算机制。不同于MapReduce基于磁盘进行运算,Spark基于内存计算,一方面内存的读取速度更快,另一方面Spark将中间结果也存在内存当中,减少了不断从磁盘读取数据的过程,因此提升了数据处理的效率。

发展至今,Spark也形成完善的数据处理系统,主要组件包括——

Spark Core:将分布式数据抽象为弹性分布式数据集(RDD),负责应用任务调度、RPC、序列化和压缩,并为上层组件提供API。

Spark SQL:Spark来操作结构化数据的程序包,通过SQL语句查询数据,支持多种数据源。

SparkStreaming:是Spark提供的实时数据进行流式计算的组件。

MLlib:提供常用机器学习算法的实现库。

GraphX:提供一个分布式图计算框架,能高效进行图计算。

BlinkDB:用于在海量数据上进行交互式SQL的近似查询引擎。

Tachyon:以内存为中心高容错的的分布式文件系统。

当然,这些知识理论上的介绍,想要实现对Spark的深入掌握,不仅需要理论知识体系的掌握,还需要Spark实战的锻炼,在理论学习的过程中,可以一边学一边进行编程实践。成都加米谷大数据,大数据技术知识分享,专业大数据培训班,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>