主页 > 新闻资讯 > Spark的优缺点:Spark大数据处理全面解析

Spark的优缺点:Spark大数据处理全面解析

作者:张老师 浏览次数: 2020-02-11 18:10
在大数据处理框架当中,Spark可以说是常常被拿来比较的对象,和早期的Hadoop比较,和后来的Flink也放在一起比较,似乎总要比出个优胜劣汰才行。然而,从大数据处理的实际状况来说,没有哪个框架可以说是完美的,能够解决好所有的问题。在大数据处理上,Spark的优缺点也是同样存在的。

大数据在蓬勃发展当中,面对越来越多样化的数据处理需求,目前来说没有哪一个框架能够真正完美地解决所有的问题,Spark也一样。

Spark的优缺点

Spark的优势特点,一般是相对于Hadoop的计算框架MapReduce而言的,作为吸取了Hadoop的经验教训的后来者,Spark继承了Hadoop的优势,在关键性的大数据处理过程当中,对MapReduce原有的模式进行了优化。

不同于MapReduce,主要基于磁盘进行运算,Spark将运算过程转移到内存当中来,中间计算结果也不在放入磁盘,而是在内存当中完成存储,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。

并且,在计算模型上,Hadoop的MapReduce计算,仅支持Map和Reduce两种编程算子,所有的任务请求都需要转换成MapReduce任务来执行。而Spark,提供超过80种不同的Transformation和Action算子,包括map、reduce、filter、group By Key、sort By Key、foreach等,在编程上提供了更加灵活的选择。

面对不同场景下的大数据处理需求,Spark基于同一的框架下就能完成,批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)都能在Spark框架下找到解决方案。

而与此同时,Spark的缺点也存在的。因为基于内存进行计算和存储,所以在大规模的数据处理任务上,对内存的使用情况进行监控和度量就非常关键。针对不同的用例,要做不同的配置工作,这需要技术人员掌握Spark的内存配置,能够根据实时需求进行适当的调整。

综合来看,Spark的优缺点都是存在的,优势方面可以帮助企业在大数据处理上提供更好的解决方案,而缺点也并非不可克服,关键还是在于对整体技术框架的灵活运用。成都加米谷大数据,专业大数据培训机构,大数据培训班2020春季班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>