Spark框架：Spark大数据计算框架详解

作者：张老师浏览次数： 2020-02-11 16:52

作为大数据实时计算的代表性框架之一，Spark在这一方面确实是有着很强大的性能优势的，而这些优势来自于Spark框架结构设计的合理性。对于很多初学Spark的小小伙伴，往往觉得不太能理解这一块的知识点，下面我们就来详细讲解一下。

Spark作为一个大一统的技术框架，实现了将各个计算场景整合于一身，包括Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言等。

一、Spark Streaming流计算框架

流计算本身就是Spark的强势所在，随着大数据的发展，新增的数据更多地一流数据的形式出现，比如说微博、微信、图片服务以及物联网、位置服务等，本质上来说都是流数据。

Spark Streaming本身就是为流数据处理而设计的，通过Spark Streaming，可以快速地将数据推入处理环节，犹如流水线一样进行快速的加工，并在最短的时间给出数据处理结果，实现下一环节的数据价值运用。

二、Spark GraphX图计算与网状数据挖掘

物理网络的拓扑结构，社交网络的连接关系，传统数据库的E-R关系，都是典型的图(Graph)数据模型，而对于这类数据的处理，早期的Hadoop是不能很好的解决的。而Spark框架，因为引入了RDD数据模型，所以能够非常高效地处理基于图的数据结构，从而使存储和处理大规模的图网络成为可能。

Spark GraphX相对于传统数据库的关系连接，可以处理更大规模、更深度的拓扑关系，可以在多个集群节点上进行运算，是现代数据关系研究的利器。

三、Spark MLlib机器学习支持框架

机器学习作为最新的技术趋势，同样也是大数据处理的重要应用场景。MLlib将机器学习算法移植到Spark框架上，利用底层的大规模存储和RDD的数据快速访问能力，以及图数据结构和集群计算的处理能力，大大拓展了机器学习算法的应用能力。

四、Spark SQL数据检索语言

Spark SQL与Hive的实现有些类似，都是通过SQL实现数据查询，并且基于Spark的RDD数据模型，能够实现更好的交互式查询。

总体来说，Spark框架在这几年的发展当中，逐步完善，在面对大规模数据的各种处理场景上，都有很灵活的应变能力，也因此，才会成为主流的数据处理框架选择。成都加米谷大数据，大数据技术知识分享，大数据培训班每月开班中，详情可联系客服了解！

标签：大数据计算 Spark大数据 Spark入门

上一篇：Hadoop主要应用：Hadoop国内外应用现状
下一篇：Spark的优缺点：Spark大数据处理全面解析

相关推荐

大家都在看

热点排行

推荐文章