Spark框架,素来以数据处理性能高而闻名,而Spark框架的性能优势,与自身的运行机制是有很大关系的。Spark的运行流程当中,Shuffle机制很重要。今天的大数据学习分享,我们就主要来讲...
查看详情 >>作为大数据的第二代代表性框架,Spark在大数据生态圈的地位,不必特意强调,大家也能看得清楚。Spark在学习初期,进行部署配置是非常关键的一个环节,今天的大数据学习分享,我们...
查看详情 >>前面我们对 Hive on Spark设计原则及架构 做了基本的讲解,可以看出,Hive on Spark的实质,其实是把Hive 查询转换为Spark任务来执行,这其中所涉及到的很多转换,可能会影响到整体的运行效...
查看详情 >>在Spark越来越受到主流市场青睐的大背景下,Hive作为Hadoop生态当中的数仓组件工具,在于Spark生态的配合当中,开始有了Hive on Spark的思路,那么具体是怎么实现的呢?今天的大数据学习...
查看详情 >>在大数据计算引擎上,MapReduce和Spark是一直被拿来做比较的两个框架,尤其是作为后来者的Spark,越来越多地占据主流市场,这与Spark的性能表现优异是分不开的。那么Spark为什么能够性能...
查看详情 >>Apache Spark 2.2 以及以上版本提供的三种 API - RDD、DataFrame 和 Dataset,它们都可以实现很多相同的数据处理,它们之间的性能差异如何,在什么情况下该选用哪一种呢? 关于RDD 从一开始 R...
查看详情 >>在Spark框架当中,累加器是一个重要的概念,刚开始接触到的时候,会觉得不容易理解,比较生涩。而理解和掌握累加器,对于后续的编程是非常关键的。今天的大数据学习分享,我们就...
查看详情 >>Apache Spark作为大数据技术领域的第二代代表性框架,其江湖地位是得到肯定的。第一代的Hadoop框架,为大数据基础架构打下坚实的基础,而Spark为更高性能的数据计算提供了新的解决方案...
查看详情 >>