主页 > 新闻资讯 > Spark一般什么时候用?Spark应用场景选择

Spark一般什么时候用?Spark应用场景选择

作者:张老师 浏览次数: 2020-02-19 18:32
针对不同阶段的大数据处理需求,大数据计算框架一直都在持续进化,以期能够更加符合当下的大数据处理需求,比较典型的一个例子,就是从Hadoop到Spark的过渡,就是顺应数据处理需求的变化。那么Spark一般什么时候用?下面就为大家带来Spark应用场景选择方面的知识分享。

Spark官方给Spark的定义是快速和通用的分布式计算平台,这其中的两个关键词充分体现了其主要的应用方向——快速和通用。

Spark一般什么时候用

快速,是基于早期的Hadoop平台而言,离线计算天生带有极高的延迟性,因此对于时效性要求更高的计算任务,通过Hadoop是不能得到很好的解决的,而Spark改变了Hadoop MapReduce基于磁盘计算的方式,改为面向内存计算,计算速度和效率得到极大的提升。

通用,则是基于新一阶段的数据处理需求,包括批处理、迭代计算、交互式查询、流处理等,成为大数据处理更普遍的需求,Spark作为一个统一的软件栈,将这些功能的视线集于一身,面对各个场景下的数据处理任务,都具备相当的处理能力。

另外,Spark使用Scala语言开发,支持Scala、Java、Python、R语言相关的API,运行与JVM之上,对于技术研发人员而言,也提供了相当的便利性和通用性。

Spark一般什么时候用?从理论上来回,Spark基于内存进行迭代计算,因此对于需要多次操作特定数据集的应用场合,是极佳的解决方案。得益于RDD数据结构,使用Spark框架的计算任务,需要反复操作的次数越多,所需读取的数据量越大,效率提升所带来了的好处也越大。

但是同样由于RDD的特性,Spark不适合增量修改的应用模型,也就是Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。

关于Spark一般什么时候用,Spark应用场景的选择,相信大家看完以上的内容也都有了更清新的认识了。Spark基于内存进行迭代计算,尤其对于深度学习、机器学习等方面的计算任务,能够带来明显的效率提升。成都加米谷大数据,大数据知识分享,大数据培训班学习,撩客服小姐姐可获学习资料分享及免费试听哦!
热点排行
推荐文章
立即申请>>