Spark的优缺点：Spark大数据处理全面解析

作者：张老师浏览次数： 2020-02-11 18:10

在大数据处理框架当中，Spark可以说是常常被拿来比较的对象，和早期的Hadoop比较，和后来的Flink也放在一起比较，似乎总要比出个优胜劣汰才行。然而，从大数据处理的实际状况来说，没有哪个框架可以说是完美的，能够解决好所有的问题。在大数据处理上，Spark的优缺点也是同样存在的。

大数据在蓬勃发展当中，面对越来越多样化的数据处理需求，目前来说没有哪一个框架能够真正完美地解决所有的问题，Spark也一样。

Spark的优势特点，一般是相对于Hadoop的计算框架MapReduce而言的，作为吸取了Hadoop的经验教训的后来者，Spark继承了Hadoop的优势，在关键性的大数据处理过程当中，对MapReduce原有的模式进行了优化。

不同于MapReduce，主要基于磁盘进行运算，Spark将运算过程转移到内存当中来，中间计算结果也不在放入磁盘，而是在内存当中完成存储，减少了迭代运算的磁盘IO，并通过并行计算DAG图的优化，减少了不同任务之间的依赖，降低了延迟等待时间。

并且，在计算模型上，Hadoop的MapReduce计算，仅支持Map和Reduce两种编程算子，所有的任务请求都需要转换成MapReduce任务来执行。而Spark，提供超过80种不同的Transformation和Action算子，包括map、reduce、filter、group By Key、sort By Key、foreach等，在编程上提供了更加灵活的选择。

面对不同场景下的大数据处理需求，Spark基于同一的框架下就能完成，批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）都能在Spark框架下找到解决方案。

而与此同时，Spark的缺点也存在的。因为基于内存进行计算和存储，所以在大规模的数据处理任务上，对内存的使用情况进行监控和度量就非常关键。针对不同的用例，要做不同的配置工作，这需要技术人员掌握Spark的内存配置，能够根据实时需求进行适当的调整。

综合来看，Spark的优缺点都是存在的，优势方面可以帮助企业在大数据处理上提供更好的解决方案，而缺点也并非不可克服，关键还是在于对整体技术框架的灵活运用。成都加米谷大数据，专业大数据培训机构，大数据培训班2020春季班正在招生中，详情可联系客服了解！

标签：大数据计算大数据处理 Spark大数据

上一篇：Spark框架：Spark大数据计算框架详解
下一篇：算法工程师和程序员区别：大数据工程师与程序员的关系

相关推荐

大家都在看

热点排行

推荐文章