大数据学习：Spark GraphX图计算入门

作者：张老师浏览次数： 2020-11-20 16:37

Spark框架下，除了支持批处理和流处理，也提供图计算功能，而图计算功能主要由Spark GraphX来提供。而近些年来说，图计算在大数据领域，也得到越来越多的应用。今天的大数据学习分享，我们就来讲讲Spark GraphX图计算入门。

关于图计算

关于图计算，其实是不能单单从字面上去理解。所谓的图计算的“图（Graph）”，其实是指的一种网络，是一种适合表现事物之间关联关系的数据结构，而非大众意义上的图片（Image）。

图计算目前广泛应用于公安系统和银行金融领域。通过社交网络分析，可以打击犯罪团伙，金融欺诈、信用卡盗刷等。通过人与人之间的关联关系推断，还可以用于理财产品推荐等场景。

图的基本概念

1、图的组成

图的基本组成是顶点(vertex)和边(edge)。

2、图的分类

有向图和无向图：根据边是否有方向，图可以分成为有向图和无向图。有向图的边从源顶点出发，指向目标顶点。在无向图中，一个顶点上的边的数量叫做这个顶点的度。在有向图中，一个顶点上出发的边的数量叫做这个顶点的出度，汇集到一个顶点上的边的数量叫做这个顶点的入度。

有环图和无环图：如果有向图中存在一些边构成闭合的环，称为有环图，反之为无环图。有环图上设计算法需要考虑终止条件，否则算法可能会沿着环永远循环下去。

多重图和伪图：如果两个顶点之间可以有多条平行边，称为多重图。如果存在自环，即由一个顶点指向自己的边，则称为伪图。Graphx的图都是伪图。

属性图和非属性图：如果顶点和边是包括属性的，称为属性图，否则是非属性图。非属性图作用不大。通常顶点和边至少有一个是包括属性的，Graphx的图都是属性图。

二分图：如果图的顶点被分成两个不同的子集，边的源顶点始终来自其中一个子集，目标顶点始终来自另外一个子集。这种图称为二分图。

3、图的表示

如果图的边是没有属性的，可以用稀疏的邻接矩阵进行表示。在Graphx中，用顶点属性表VertexRDD和边属性表EdgeRDD联合来表示图。

图的算法

常见的图算法大致可以分为：

路径搜索算法，例如DFS&BFS、最短路径、最小生成树、随机游走等；

中心性算法，例如DegreeCentrality、ClosenessCentrality、BetweennessCentrality、PageRank等；

社群发现算法，例如MeasuringAlgorithm、ComponentsAlgorithm、LabelPropagation Algorithm、LouvainModularity Algorithm等。

关于大数据学习，Spark GraphX图计算入门，以上就为大家做了简单的介绍了。图计算应用在大数据的实际场景当中，正在面临着越来越多的应用，而Spark GraphX重要性值得关注。成都加米谷大数据，专业大数据培训机构，大数据开发、数据分析与挖掘，零基础班本月正在招生中，课程大纲及试学视频，可联系客服领取！

标签：大数据学习 Spark Spark学习

上一篇：大数据学习：Spark MLlib入门简介
下一篇：大数据培训：Flink基本概念介绍

相关推荐

大家都在看

热点排行

推荐文章