主页 > 新闻资讯 > 大数据学习:Spark GraphX图计算入门

大数据学习:Spark GraphX图计算入门

作者:张老师 浏览次数: 2020-11-20 16:37
Spark框架下,除了支持批处理和流处理,也提供图计算功能,而图计算功能主要由Spark GraphX来提供。而近些年来说,图计算在大数据领域,也得到越来越多的应用。今天的大数据学习分享,我们就来讲讲Spark GraphX图计算入门。

大数据学习:Spark GraphX图计算入门

关于图计算

关于图计算,其实是不能单单从字面上去理解。所谓的图计算的“图(Graph)”,其实是指的一种网络,是一种适合表现事物之间关联关系的数据结构,而非大众意义上的图片(Image)。

图计算目前广泛应用于公安系统和银行金融领域。通过社交网络分析,可以打击犯罪团伙,金融欺诈、信用卡盗刷等。通过人与人之间的关联关系推断,还可以用于理财产品推荐等场景。

图的基本概念

1、图的组成

图的基本组成是顶点(vertex)和边(edge)。

2、图的分类

有向图和无向图:根据边是否有方向,图可以分成为有向图和无向图。有向图的边从源顶点出发,指向目标顶点。在无向图中,一个顶点上的边的数量叫做这个顶点的度。在有向图中,一个顶点上出发的边的数量叫做这个顶点的出度,汇集到一个顶点上的边的数量叫做这个顶点的入度。

有环图和无环图:如果有向图中存在一些边构成闭合的环,称为有环图,反之为无环图。有环图上设计算法需要考虑终止条件,否则算法可能会沿着环永远循环下去。

多重图和伪图:如果两个顶点之间可以有多条平行边,称为多重图。如果存在自环,即由一个顶点指向自己的边,则称为伪图。Graphx的图都是伪图。

属性图和非属性图:如果顶点和边是包括属性的,称为属性图,否则是非属性图。非属性图作用不大。通常顶点和边至少有一个是包括属性的,Graphx的图都是属性图。

二分图:如果图的顶点被分成两个不同的子集,边的源顶点始终来自其中一个子集,目标顶点始终来自另外一个子集。这种图称为二分图。

3、图的表示

如果图的边是没有属性的,可以用稀疏的邻接矩阵进行表示。在Graphx中,用顶点属性表VertexRDD和边属性表EdgeRDD联合来表示图。

图的算法

常见的图算法大致可以分为:

路径搜索算法,例如DFS&BFS、最短路径、最小生成树、随机游走等;

中心性算法,例如DegreeCentrality、ClosenessCentrality、BetweennessCentrality、PageRank等;

社群发现算法,例如MeasuringAlgorithm、ComponentsAlgorithm、LabelPropagation Algorithm、LouvainModularity Algorithm等。

关于大数据学习,Spark GraphX图计算入门,以上就为大家做了简单的介绍了。图计算应用在大数据的实际场景当中,正在面临着越来越多的应用,而Spark GraphX重要性值得关注。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析与挖掘,零基础班本月正在招生中,课程大纲及试学视频,可联系客服领取!
热点排行
推荐文章
立即申请>>