主页 > 新闻资讯 > Spark框架:Spark大数据计算框架详解

Spark框架:Spark大数据计算框架详解

作者:张老师 浏览次数: 2020-02-11 16:52
作为大数据实时计算的代表性框架之一,Spark在这一方面确实是有着很强大的性能优势的,而这些优势来自于Spark框架结构设计的合理性。对于很多初学Spark的小小伙伴,往往觉得不太能理解这一块的知识点,下面我们就来详细讲解一下。

Spark框架

Spark作为一个大一统的技术框架,实现了将各个计算场景整合于一身,包括Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言等。

一、Spark Streaming流计算框架

流计算本身就是Spark的强势所在,随着大数据的发展,新增的数据更多地一流数据的形式出现,比如说微博、微信、图片服务以及物联网、位置服务等,本质上来说都是流数据。

Spark Streaming本身就是为流数据处理而设计的,通过Spark Streaming,可以快速地将数据推入处理环节,犹如流水线一样进行快速的加工,并在最短的时间给出数据处理结果,实现下一环节的数据价值运用。

二、Spark GraphX图计算与网状数据挖掘

物理网络的拓扑结构,社交网络的连接关系,传统数据库的E-R关系,都是典型的图(Graph)数据模型,而对于这类数据的处理,早期的Hadoop是不能很好的解决的。而Spark框架,因为引入了RDD数据模型,所以能够非常高效地处理基于图的数据结构,从而使存储和处理大规模的图网络成为可能。

Spark GraphX相对于传统数据库的关系连接,可以处理更大规模、更深度的拓扑关系,可以在多个集群节点上进行运算,是现代数据关系研究的利器。

三、Spark MLlib机器学习支持框架

机器学习作为最新的技术趋势,同样也是大数据处理的重要应用场景。MLlib将机器学习算法移植到Spark框架上,利用底层的大规模存储和RDD的数据快速访问能力,以及图数据结构和集群计算的处理能力,大大拓展了机器学习算法的应用能力。

四、Spark SQL数据检索语言

Spark SQL与Hive的实现有些类似,都是通过SQL实现数据查询,并且基于Spark的RDD数据模型,能够实现更好的交互式查询。

总体来说,Spark框架在这几年的发展当中,逐步完善,在面对大规模数据的各种处理场景上,都有很灵活的应变能力,也因此,才会成为主流的数据处理框架选择。成都加米谷大数据,大数据技术知识分享,大数据培训班每月开班中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>