在大数据领域,Spark框架也算是主流的计算引擎之一了,尤其是在实时数据计算处理上,Spark体现出了比Hadoop更强劲的计算性能,也因此近年来的市场占有率不断提高。关于大数据Spark,今天我们来对它的生态系统做一个简单的介绍。
Spark最早的开发是在UC Berkeley AMP LAB,专为大规模数据处理而设计,将各个大数据场景下的计算需求统一到一个框架下,通用性更强,基于一个大一统的软件栈,成为一个轻量级大数据处理平台。
发展到如今,Spark已经形成了自己的生态圈,能够应对更多的大数据场景,给出适宜的解决方案。Spark生态可分为四层:
数据存储层,以HDFS、Tachyon为代表的一些分布式文件存储系统或各种数据库;
资源管理层,Yarn、Mesos等资源管理器;
数据处理引擎;
应用层,以Spark为基础产生的众多项目。
Spark SQL提供HiveQL(通过Apache Hive的SQL变体Hive查询语言)与Spark进行交互的API。每个数据库表被当做一个RDD,Spark SQL查询被转换为Spark操作。Spark Streaming对实时数据流进行处理和控制,它允许程序能够像普通RDD一样处理实时数据。
大数据Spark框架,其实从最初设计研发,主要想要解决的还是计算方面的问题,也就是数据计算引擎,而事实上,Spark在数据计算性能上的表现,也确实达到了比较好的预期。
首先,速度快。Spark基于内存进行计算,基本上实现了准实时的数据计算。
其次是容易上手开发。Spark基于RDD的计算模型,比Hadoop基于Map-Reduce的计算模型要更易于理解、易于上手开发实现各种复杂功能,如二次排序、topN等复杂操作时更加便捷。
第三,是有极高的通用性。Spark框架的Spark RDD、Spark SQL、Spark Streaming、Spark MLlib、Spark GraphX等技术组件,可以一站式地完成大数据领域的离线批处理、交互式查询、流式计算、机器学习、图计算等常见的任务。
总体来说,大数据Spark框架在面对大规模数据处理任务上,表现是非常不错的,尤其是近年来Hadoop和Spark的平台集成开发,吸收各自的优点,在解决大数据问题上,能够给出更优的方案。成都加米谷大数据,大数据技术分享,
大数据培训班课程,更多详情可联系客服了解!