主页 > 新闻资讯 > Spark的主要特点:Spark大数据处理的优势

Spark的主要特点:Spark大数据处理的优势

作者:张老师 浏览次数: 2020-02-10 15:17
作为大数据处理的主流框架之一,Spark在大数据技术领域得到了极好的发展机会,并且随着在大数据处理过程中经验的累计,Spark也在不断地更新优化,提供更优的大数据处理解决方案。今天我们就来聊聊Spark的主要特点,这也是Spark在大数据处理当中获得优势的原因所在。

在Spark之前,大数据处理框架主要依靠的是Hadoop,针对海量离线数据的处理,Hadoop具有不可替代的优势,高稳定性、高扩展性成为Hadoop的典型特征。但是随着大数据的进一步发展,Hadoop在实时处理上的缺陷也逐渐出现了,在面对需要快速处理完成的大数据,Hadoop具有一定的延迟性。

Spark的主要特点

在这样的背景下,Spark出现了,同属于Apache基金会,Spark的研发就是在Hadoop所遇到的问题上提供新的优化的解决办法。Hadoop基于磁盘计算,在计算的过程中需要不断从磁盘存取数据,所以效率被拖慢。而Spark吸取教训,采取了基于内存计算,中间计算结果也存于内存当中,计算效率大大提升。

Spark的主要特点

①快速

前面我们说了,Spark采取的是基于内存进行计算,根据理论测算,比Hadoop的MapReduce程序,在数据处理上可以提速约100倍;在处理迭代式应用上Spark比MapReduce快20多倍;计算数据分析类报表的性能提高了40多倍;Spark能够在5-7秒的延时内交互式扫描1TB数据集。

②易用

Spark的编程语言是Scala,代码非常简洁,在Spark的早期版本,Spark的核心代码仅三万行。但是除了Scala语言之外,Spark同时还支持多种语言的API,如Java,Python等,极大地提高了程序开发的效率。

③通用

Hadoop的生态系统,二十几个组件,感觉就像是个庞然大物,而相比之下的Spark就要小巧玲珑得多。Spark框架,通常也就五个核心组件,Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX、BlinkDB,共同构成Spark技术栈,实时数据流处理、批处理和交互式查询都能实现。

Spark的主要特点,其实也就是Spark作为大数据处理框架的优势所在,尤其是在大数据实时计算方面,Spark具有不可替代的优势,也可以与Hadoop协同工作,共同完成大数据处理任务。成都加米谷大数据,专业大数据培训机构,大数据开发2020春季班即将开班,详情可联系客服了解!
热点排行
推荐文章
立即申请>>