在Spark框架的核心部分,SparkCore作为平台基础通用执行引擎,重要性自是不必多说。而在SparkCore当中,RDD作为SparkCore的核心抽象,是需要重点搞懂的概念。今天的大数据培训分享,我们就...
查看详情 >>在大数据计算引擎当中,Spark受到的重视是越来越多的,尤其是对数据处理实时性的要求越来越高,Hadoop原生的MapReduce引擎受到诟病,Spark的性能也需要不断调整优化。今天的大数据培训...
查看详情 >>对于Spark RDD,之前我们已经做了相应的基础入门讲解,今天我们仍然继续来讲解这个部分,涉及到Spark RDD当中的一对重要概念,宽依赖和窄依赖。在Spark的学习当中,这个部分也是非常重...
查看详情 >>企业级的大数据平台当中,日志数据的收集与管理,常常用到Kafka框架。作为消息系统,Kafka将日志消息持久化到磁盘上,而在这个过程当中,涉及到吞吐量和扩展性多方面的问题,而...
查看详情 >>在Kafka框架当中,主题和分区是两个非常重要的核心概念,在入门之初,对于核心概念一定是要理解透彻,才能在后续的学习当中,水到渠成地去理解其中的运行机制和原理。今天的大数...
查看详情 >>在大数据生态当中,分布式集群当中的一个重要组件,就是Zookeeper,作为集群运行的重要管理者,正如其名字动物园管理员所示,负责集群运行的诸多事宜。今天的大数据学习分享,我...
查看详情 >>Zookeeper作为大数据技术生态当中的一个分布式服务框架,也可以算是Hadoop的一个重要子项目,最初作为MapReduce的协调服务组件而存在,后来独立出来,负责整个集群的协调服务,在大数...
查看详情 >>在Hadoop生态体系当中的Hive,以提供数据仓库服务而闻名,定义基本的数据结构,使得数据查询任务能够通过更便捷的方式去实现,省去了MapReduce直接编程的复杂操作。今天的大数据学习...
查看详情 >>从传统的数据库存储到大数据背景下的数据平台系统存储,不同数据库系统之间的数据迁移,是需要解决的一个重要问题。在大数据技术生态下,Sqoop作为数据迁移工具,应用程度还是比...
查看详情 >>