Spark开源时间：Apache Spark介绍

作者：张老师浏览次数： 2020-02-17 16:13

提起Apache Spark，大家都知道这是目前大数据领域主流的计算框架之一，尤其是Spark与Hadoop常常拿来做比较，可以说已经成为大家所熟知的两大框架之一。今天我们主要来聊一些Spark的背景知识，例如Spark开源时间，Apache Spark介绍，给大家做个入门参考吧！

Spark开源时间，真正意义上是从2010年才算，其后的几年，Spark开始走上快速发展道路，得到很多头部公司的青睐，例如IBM、Cloudera等，正是在这些公司的应用推动下，Spark的优势进一步体现出来，得到广泛地重视和应用。

其实从真正意义上来说，Spark是站在Hadoop的肩膀上进行开发的。早期推出的Hadoop，在大数据领域独占鳌头，但是随着最新趋势的变化和在实际应用当中的时间，Hadoop的劣势也就体现了出来，Hadoop的MapReduce在离线计算上表现不错，但是实时数据流计算上，很难体现出优势。

Spark的出现正是在这样的背景下，主要致力于解决实时数据流计算方面的问题。并且，Spark本身既能支持单独的集群作业，也能与Hadoop实现集成，基于Hadoop集群执行计算任务，代替MapReduce，也被看作是Hadoop生态的一部分。

Spark的优势体现在：

第一，速度快。

Spark拥有高级DAG(有向无环图)引擎支持数据循环利用，多步数据管道以及in-memory computing，在数据计算上可以实现比Hadoop的MapReduce快10-100倍。

第二，易用性。

Spark提供各种高级API接口，除了支持自身的Scala语言编程，同时还支持Java、Python、R语言等。

第三，功能强大。

Spark定义做一个大一统的软件栈，对于多种数据场景提供解决方案。SQL、Streaming、Analytics、Machine Learning，Graph X，针对多个场景下的大数据问题都给出相应的解决方案。

第四，兼容性好。

Spark既可以独立运行，也可以兼容各大生态圈，可以运行在Hadoop、Mesos单机或者云端。同时支持访问多种多样的数据源，包括HDFS、Cassandra、HBase、S3等。

以上就是对Apache Spark介绍，Spark开源时间的一点介绍了。在大数据领域，Spark的应用场景是非常广泛的，因此作为大数据技术开发人员，掌握Spark对于提升自己的业务能力还是非常有好处的。成都加米谷大数据，大数据技术分享，大数据培训班课程，更多详情可联系客服了解！

标签：大数据培训 Spark学习 Spark大数据

上一篇：Hadoop Yarn使用：关于Yarn组件的全面解析
下一篇：流式计算框架：Spark、Storm、Flink对比

相关推荐

大家都在看

热点排行

推荐文章