之前对于Spark的核心数据模型,我们早就讲过了RDD,事实上,除了RDD之外,DataFrame、DataSet也是重要的数据抽象概念。今天的大数据培训分享,我们就主要来讲讲Spark核心数据抽象之DataF...
查看详情 >>前面我们已经对Spark RDD的概念及特征做了基本的介绍,了解了基本的概念之后,RDD的管理和操作,在Spark框架当中又是如何去运行和操作的呢?今天的大数据培训分享,我们就来对Spark...
查看详情 >>Spark Streaming作为Spark的流处理引擎,主要是负责数据流的处理,而这就需要集中各种各样的数据源,而基于不同来源的数据,其性质和格式不一,而Spark Streaming也提供了不同的导入方式。...
查看详情 >>Hive组件在Hadoop生态圈的地位,还是相当重要的,作为操作数据库的重要工具,其性能和效率对于整体的数据处理效率是有着明显的影响的。今天的大数据培训分享,我们就来讲讲Hive分桶...
查看详情 >>之前我们对Spark SQL执行计划做了简单的入门介绍,Spark SQL尤其是在性能优化的阶段,如果能够对执行计划有清晰的认识和了解,是能够大大提升工作效率的。今天的大数据培训分享,我...
查看详情 >>Hbase在Hadoop大数据生态圈,主要在数据存储环节提供支持,结合到HDFS分布式文件系统,在集群运维工作当中,也需要相应地根据需求去解决问题。今天的大数据培训分享,我们就主要来...
查看详情 >>Redis为了保证高可用,对于可能出现的故障状况也都有相应的设计,包括故障转移、故障恢复等等,这其中就涉及到一个重要的概念是哨兵模式。今天的大数据培训分享,我们就主要来讲...
查看详情 >>在Spark框架当中,基本的操作都是基于核心数据模型RDD去进行的,而RDD的特性,决定了它可以大大提升计算的效率,从而实现对大规模数据处理场景的稳定支持。今天的大数据培训分享,...
查看详情 >>