主页 > 新闻资讯 > Spark开源时间:Apache Spark介绍

Spark开源时间:Apache Spark介绍

作者:张老师 浏览次数: 2020-02-17 16:13
提起Apache Spark,大家都知道这是目前大数据领域主流的计算框架之一,尤其是Spark与Hadoop常常拿来做比较,可以说已经成为大家所熟知的两大框架之一。今天我们主要来聊一些Spark的背景知识,例如Spark开源时间,Apache Spark介绍,给大家做个入门参考吧!

Spark开源时间,真正意义上是从2010年才算,其后的几年,Spark开始走上快速发展道路,得到很多头部公司的青睐,例如IBM、Cloudera等,正是在这些公司的应用推动下,Spark的优势进一步体现出来,得到广泛地重视和应用。

Spark开源时间

其实从真正意义上来说,Spark是站在Hadoop的肩膀上进行开发的。早期推出的Hadoop,在大数据领域独占鳌头,但是随着最新趋势的变化和在实际应用当中的时间,Hadoop的劣势也就体现了出来,Hadoop的MapReduce在离线计算上表现不错,但是实时数据流计算上,很难体现出优势。

Spark的出现正是在这样的背景下,主要致力于解决实时数据流计算方面的问题。并且,Spark本身既能支持单独的集群作业,也能与Hadoop实现集成,基于Hadoop集群执行计算任务,代替MapReduce,也被看作是Hadoop生态的一部分。

Spark的优势体现在:

第一,速度快。

Spark拥有高级DAG(有向无环图)引擎支持数据循环利用,多步数据管道以及in-memory computing,在数据计算上可以实现比Hadoop的MapReduce快10-100倍。

第二,易用性。

Spark提供各种高级API接口,除了支持自身的Scala语言编程,同时还支持Java、Python、R语言等。

第三,功能强大。

Spark定义做一个大一统的软件栈,对于多种数据场景提供解决方案。SQL、Streaming、Analytics、Machine Learning,Graph X,针对多个场景下的大数据问题都给出相应的解决方案。

第四,兼容性好。

Spark既可以独立运行,也可以兼容各大生态圈,可以运行在Hadoop、Mesos单机或者云端。同时支持访问多种多样的数据源,包括HDFS、Cassandra、HBase、S3等。

以上就是对Apache Spark介绍,Spark开源时间的一点介绍了。在大数据领域,Spark的应用场景是非常广泛的,因此作为大数据技术开发人员,掌握Spark对于提升自己的业务能力还是非常有好处的。成都加米谷大数据,大数据技术分享,大数据培训班课程,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>