Spark一般什么时候用？Spark应用场景选择

作者：张老师浏览次数： 2020-02-19 18:32

针对不同阶段的大数据处理需求，大数据计算框架一直都在持续进化，以期能够更加符合当下的大数据处理需求，比较典型的一个例子，就是从Hadoop到Spark的过渡，就是顺应数据处理需求的变化。那么Spark一般什么时候用？下面就为大家带来Spark应用场景选择方面的知识分享。

Spark官方给Spark的定义是快速和通用的分布式计算平台，这其中的两个关键词充分体现了其主要的应用方向——快速和通用。

快速，是基于早期的Hadoop平台而言，离线计算天生带有极高的延迟性，因此对于时效性要求更高的计算任务，通过Hadoop是不能得到很好的解决的，而Spark改变了Hadoop MapReduce基于磁盘计算的方式，改为面向内存计算，计算速度和效率得到极大的提升。

通用，则是基于新一阶段的数据处理需求，包括批处理、迭代计算、交互式查询、流处理等，成为大数据处理更普遍的需求，Spark作为一个统一的软件栈，将这些功能的视线集于一身，面对各个场景下的数据处理任务，都具备相当的处理能力。

另外，Spark使用Scala语言开发，支持Scala、Java、Python、R语言相关的API，运行与JVM之上，对于技术研发人员而言，也提供了相当的便利性和通用性。

Spark一般什么时候用？从理论上来回，Spark基于内存进行迭代计算，因此对于需要多次操作特定数据集的应用场合，是极佳的解决方案。得益于RDD数据结构，使用Spark框架的计算任务，需要反复操作的次数越多，所需读取的数据量越大，效率提升所带来了的好处也越大。

但是同样由于RDD的特性，Spark不适合增量修改的应用模型，也就是Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。

关于Spark一般什么时候用，Spark应用场景的选择，相信大家看完以上的内容也都有了更清新的认识了。Spark基于内存进行迭代计算，尤其对于深度学习、机器学习等方面的计算任务，能够带来明显的效率提升。成都加米谷大数据，大数据知识分享，大数据培训班学习，撩客服小姐姐可获学习资料分享及免费试听哦！

标签：大数据应用 Spark大数据大数据场景

上一篇：入门Spark：Spark数据模型RDD概念全解
下一篇：Spark安装教程：Spark 本地安装配置

相关推荐

大家都在看

热点排行

推荐文章