主页 > 新闻资讯 > Spark是啥?Spark基础入门理论解析

Spark是啥?Spark基础入门理论解析

作者:张老师 浏览次数: 2020-02-06 17:46
在大数据领域,Spark绝对不是一个令大家感到陌生的词汇了,甚至常常被拿来和Hadoop做比较,这也充分说明Spark在大数据领域获得的影响力。然而对于很多刚接触大数据的同学来说,对Spark还不够了解,那么Spark是啥?下面我们从基础入门的角度来普及一下理论知识。

根据Spark官网的定义,Spark是一个对大规模数据处理的统一分析引擎,听起来似乎有点绕口,我们简单点来理解,这其实就是一个数据分析处理引擎,就像是Hadoop当中的分布式计算引擎MapReduce一样,Spark也是一个数据计算引擎。

Spark是啥

当然,从细化来说,Spark不等于MapReduce,确切来说,Spark是基于MapReduce在数据处理上的一些局限,吸收这些“经验教训”而研发,作为MapReduce数据处理的不足的补充。

Spark最优势的特点,就是数据处理速度的加快,理论上来说,Spark运行速度可以达到Hadoop的一百倍。这是由于Spark采取DAG执行引擎,基于内存进行计算,相比Hadoop对磁盘读写要快很多。并且,spark作业基于线程池,任务启动的开销也要比Hadoop快。

其次,Spark在易用性上也做了进一步提升,支持Java,Scala,Python,R,SQL等多种语言,并不像Hadoop一样以Java为主。另外,Spark还提供80多种高级别的算子,相比MapReduce的map和reduce操作更广泛,在应用开发上也更易用。

并且,Spark还支持多种运行模式,包括Hadoop(yarn),Mesos,standalone,Kubernetes等,可以访问多种数据源,如HDFS,Cassandra,HBase,Hive等,这样也为Spark的应用场景提供了更多的可能性。

Spark生态系统也在不断地完善,各个组件工具不断增强Spark的实力,Spark SQL处理SQL的场景(离线处理),MLlib用于进行机器学习,Graphx用作图计算,Spark Streaming用来进行流式处理等等。

关于Spark是啥,以上就是一些简单的理论分享了,当然,Spark作为现在重要的大数据计算引擎,具有强大的优势,但是也并非十全十美,后续还会不断地更新优化,达到更好的数据处理性能。成都加米谷大数据,专业大数据培训机构,大数据开发Spark培训,本月即将开班,详情可联系客服了解!
热点排行
推荐文章
立即申请>>