为什么使用Spark？Spark的优势在哪儿

作者：张老师浏览次数： 2020-02-24 18:40

虽然是一直以来都流传着Spark取代Hadoop的说法，但是时至今日，也没有敢说Spark安全替代了Hadoop，但是确实，Spark作为计算引擎，是存在极大的优势的。为什么使用Spark？Spark的优势在哪儿？今天我们就来详细的聊一聊。

Spark作为公认的第二代计算框架，相比于Hadoop最大的优势，就是计算速度的提升。可以说，Spark是在继承Hadoop优势的基础上进行的改进，同样基于map+reduce模式的分布式计算，但是在计算过程中，主要面向内存进行计算，中间结果也保存在内存当中，计算性能得到极大的提升。

回到刚刚的问题，为什么使用Spark？很简单，就是因此Spark在计算性能上的提升。

第一代的Hadoop，主要针对的是大数据离线计算场景，在稳定性上无出其右，但是随着大数据的发展，实时流计算成为主流的需求，Hadoop MapReduce已经不能满足了。而Spark，正是在这样的背景下产生，Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。

Spark的优势体现在哪儿？

①高效性

运行速度提高100倍。使用最先进的DAG调度程序，查询优化程序和物理执行引擎，实现批量和流式数据的高性能。

②易用性

Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。

③通用性

Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）等多种数据处理场景。

④兼容性

Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，此外Spark还提供了在EC2上部署Standalone的Spark集群的工具。

为什么使用Spark？Spark的优势在哪儿？相信看完以上的内容，大家也都有了基本的认识了。在实时流数据计算上，Spark的表现是公认的，作为第二代框架来说，其性能是值得肯定的。成都加米谷大数据，专业大数据培训机构，大数据开发2020春季班正在招生中，详情可联系客服了解！

标签： Spark 大数据框架大数据平台

上一篇：Spark架构图：Spark集群架构解析
下一篇：Flink Python：Flink Python API架构

相关推荐

大家都在看

热点排行

推荐文章