Spark实战：Spark如何实现数据处理

作者：张老师浏览次数： 2020-02-12 15:32

Spark其实严格意义上来说，在大数据领域的发展历史不算长，尤其是在近几年，确实得到了很好的发展机会，国内外的大厂，在大数据计算框架上，多多少少都在用到Spark。作为大数据技术方向的从业人员，那么对Spark是必须要求掌握的。今天，我们就主要来聊聊Spark实战是如何实现数据处理的？

首先，提到Spark必然少不了的是Hadoop。Hadoop作为大数据领域资格最老的计算框架，虽然在某些数据处理场景上存在局限，但是作为一个大数据处理平台框架，目前来说还是具有不可替代性的。

Spark计算引擎，继承了Hadoop的MapReduce计算模式，并在此基础之上做了扩展，支持包括交互式查询和流处理在内的更多计算模式，满足了大数据不断发展下的新的数据趋势和处理需求。

Spark在数据处理上的优势就是快，而这个快来源于Spark的内存计算机制。不同于MapReduce基于磁盘进行运算，Spark基于内存计算，一方面内存的读取速度更快，另一方面Spark将中间结果也存在内存当中，减少了不断从磁盘读取数据的过程，因此提升了数据处理的效率。

发展至今，Spark也形成完善的数据处理系统，主要组件包括——

Spark Core：将分布式数据抽象为弹性分布式数据集（RDD），负责应用任务调度、RPC、序列化和压缩，并为上层组件提供API。

Spark SQL：Spark来操作结构化数据的程序包，通过SQL语句查询数据，支持多种数据源。

SparkStreaming：是Spark提供的实时数据进行流式计算的组件。

MLlib：提供常用机器学习算法的实现库。

GraphX：提供一个分布式图计算框架，能高效进行图计算。

BlinkDB：用于在海量数据上进行交互式SQL的近似查询引擎。

Tachyon：以内存为中心高容错的的分布式文件系统。

当然，这些知识理论上的介绍，想要实现对Spark的深入掌握，不仅需要理论知识体系的掌握，还需要Spark实战的锻炼，在理论学习的过程中，可以一边学一边进行编程实践。成都加米谷大数据，大数据技术知识分享，专业大数据培训班，更多详情可联系客服了解！

标签：大数据计算大数据处理 Spark大数据

上一篇：Spark简介：Spark数据处理核心架构
下一篇：Spark难不难？关于Spark的学习建议

相关推荐

大家都在看

热点排行

推荐文章