Spark的主要特点：Spark大数据处理的优势

作者：张老师浏览次数： 2020-02-10 15:17

作为大数据处理的主流框架之一，Spark在大数据技术领域得到了极好的发展机会，并且随着在大数据处理过程中经验的累计，Spark也在不断地更新优化，提供更优的大数据处理解决方案。今天我们就来聊聊Spark的主要特点，这也是Spark在大数据处理当中获得优势的原因所在。

在Spark之前，大数据处理框架主要依靠的是Hadoop，针对海量离线数据的处理，Hadoop具有不可替代的优势，高稳定性、高扩展性成为Hadoop的典型特征。但是随着大数据的进一步发展，Hadoop在实时处理上的缺陷也逐渐出现了，在面对需要快速处理完成的大数据，Hadoop具有一定的延迟性。

在这样的背景下，Spark出现了，同属于Apache基金会，Spark的研发就是在Hadoop所遇到的问题上提供新的优化的解决办法。Hadoop基于磁盘计算，在计算的过程中需要不断从磁盘存取数据，所以效率被拖慢。而Spark吸取教训，采取了基于内存计算，中间计算结果也存于内存当中，计算效率大大提升。

Spark的主要特点

①快速

前面我们说了，Spark采取的是基于内存进行计算，根据理论测算，比Hadoop的MapReduce程序，在数据处理上可以提速约100倍；在处理迭代式应用上Spark比MapReduce快20多倍；计算数据分析类报表的性能提高了40多倍；Spark能够在5-7秒的延时内交互式扫描1TB数据集。

②易用

Spark的编程语言是Scala，代码非常简洁，在Spark的早期版本，Spark的核心代码仅三万行。但是除了Scala语言之外，Spark同时还支持多种语言的API，如Java，Python等，极大地提高了程序开发的效率。

③通用

Hadoop的生态系统，二十几个组件，感觉就像是个庞然大物，而相比之下的Spark就要小巧玲珑得多。Spark框架，通常也就五个核心组件，Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX、BlinkDB，共同构成Spark技术栈，实时数据流处理、批处理和交互式查询都能实现。

Spark的主要特点，其实也就是Spark作为大数据处理框架的优势所在，尤其是在大数据实时计算方面，Spark具有不可替代的优势，也可以与Hadoop协同工作，共同完成大数据处理任务。成都加米谷大数据，专业大数据培训机构，大数据开发2020春季班即将开班，详情可联系客服了解！

标签：大数据计算大数据处理 Spark大数据

上一篇：Spark Flink区别：大数据处理Spark和Flink的对比
下一篇：Spark高级教程：Spark核心RDD概念解析

相关推荐

大家都在看

热点排行

推荐文章