当前位置:主页 > Spark
大数据学习:Spark的两种核心Shuffle

大数据学习:Spark的两种核心Shuffle

Spark框架,素来以数据处理性能高而闻名,而Spark框架的性能优势,与自身的运行机制是有很大关系的。Spark的运行流程当中,Shuffle机制很重要。今天的大数据学习分享,我们就主要来讲...

查看详情 >>
大数据学习:Spark的几种部署方式

大数据学习:Spark的几种部署方式

作为大数据的第二代代表性框架,Spark在大数据生态圈的地位,不必特意强调,大家也能看得清楚。Spark在学习初期,进行部署配置是非常关键的一个环节,今天的大数据学习分享,我们...

查看详情 >>
大数据学习:Hive on Spark优化设计

大数据学习:Hive on Spark优化设计

前面我们对 Hive on Spark设计原则及架构 做了基本的讲解,可以看出,Hive on Spark的实质,其实是把Hive 查询转换为Spark任务来执行,这其中所涉及到的很多转换,可能会影响到整体的运行效...

查看详情 >>
大数据学习:Hive on Spark设计原则及架构

大数据学习:Hive on Spark设计原则及架构

在Spark越来越受到主流市场青睐的大背景下,Hive作为Hadoop生态当中的数仓组件工具,在于Spark生态的配合当中,开始有了Hive on Spark的思路,那么具体是怎么实现的呢?今天的大数据学习...

查看详情 >>
大数据学习:spark与mapreduce几个方面的对比

大数据学习:spark与mapreduce几个方面的对比

在大数据计算引擎上,MapReduce和Spark是一直被拿来做比较的两个框架,尤其是作为后来者的Spark,越来越多地占据主流市场,这与Spark的性能表现优异是分不开的。那么Spark为什么能够性能...

查看详情 >>
Spark SQL 之 RDD、DataFrame 和 Dataset 如何选择

Spark SQL 之 RDD、DataFrame 和 Dataset 如何选择

Apache Spark 2.2 以及以上版本提供的三种 API - RDD、DataFrame 和 Dataset,它们都可以实现很多相同的数据处理,它们之间的性能差异如何,在什么情况下该选用哪一种呢? 关于RDD 从一开始 R...

查看详情 >>
大数据学习:Spark累加器简介

大数据学习:Spark累加器简介

在Spark框架当中,累加器是一个重要的概念,刚开始接触到的时候,会觉得不容易理解,比较生涩。而理解和掌握累加器,对于后续的编程是非常关键的。今天的大数据学习分享,我们就...

查看详情 >>
大数据学习:从Spark到Spark Streaming

大数据学习:从Spark到Spark Streaming

Apache Spark作为大数据技术领域的第二代代表性框架,其江湖地位是得到肯定的。第一代的Hadoop框架,为大数据基础架构打下坚实的基础,而Spark为更高性能的数据计算提供了新的解决方案...

查看详情 >>
大数据学习:Spark Streaming vs Structured Streaming

大数据学习:Spark Streaming vs Structured Streaming

在Spark框架当中,其负责流计算任务的组件,主要是Spark Streaming,但是随着大数据继续发展,Spark Streaming也开始有了各种场景下的局限,于是又推出了Structured Streaming。今天的大数据学习...

查看详情 >>
大数据学习:Spark Structured Streaming特性

大数据学习:Spark Structured Streaming特性

在Spark框架当中,早期的设计由Spark Streaming来负责实现流计算,但是随着现实需求的发展变化,Spark streaming的局限也显露了出来,于是Spark团队又设计了Spark Structured Streaming。今天的大数...

查看详情 >>
共10页/100条
  • 首页
  • 上一页
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 下一页
  • 末页
  • 热点排行
    推荐文章
    立即申请>>