主页 > 新闻资讯 > Apache spark:Spark框架平台简介

Apache spark:Spark框架平台简介

作者:张老师 浏览次数: 2020-02-13 18:26
作为Apache顶级开源项目之一的Apache spark,这两年的发展势头非常不错,风头更是几度超过了Hadoop这个“老大哥”,屡屡传出要取Hadoop而代之,但是到2020年了,Spark和Hadoop依然共存,各自在解决大数据问题上占有优势项目。关于Apache spark,今天我们来做一个简单的平台介绍。

首先,Apache spark是后于Hadoop推出的,一定程度上来说,是因为Hadoop在解决大数据处理任务上,遇到了局限性,自身不能很好地解决,所有后来才有了Spark的推出。但是实话实说,Spark在大数据计算性能上,确实青出于蓝而胜于蓝。

Apache spark

Hadoop的MapReduce计算框架,在执行计算任务时是面向磁盘的,需要反复地从磁盘写入和读取数据,因此处理迭代计算、实时计算、交互式数据查询等方面效率并不高。

吸取这个经验教训,Spark面向内存进行运算,因此能够为多个不同数据源的数据提供近乎实时的处理性能,适用于需要多次操作特定数据集的应用场景。比如说现在流行的图计算、数据挖掘和机器学习等相关领域。

根据实验室环境下的实验,处理相同的数据,若在内存中运行,那么Spark要比MapReduce快100倍。其它方面,例如处理迭代运算、计算数据分析类报表、排序等,Spark都比MapReduce快很多。

除了性能上的提升,Spark在易用性、通用性等方面也比Hadoop表现更好。

Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时流数据)的大数据处理的需求。

Spark让开发者可以快速的用Java、Scala或Python编写程序。它本身自带超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。

关于Apache spark平台,以上就是一个简单的介绍了,相比于Hadoop,Spark确实在很多方面都有提升,也不怪乎现在Spark成为主流的计算框架之一,当然这并不是说Hadoop就不行了,目前为止,Hadoop仍然有着不可替代的优势。成都加米谷大数据,专业大数据培训机构,大数据培训班每月开班中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>