当前位置:主页 > 大数据培训
大数据培训:Kafka消息存储到Broker的流程

大数据培训:Kafka消息存储到Broker的流程

Kafka作为分布式消息系统,在大数据平台架构层面,承担着消息流转和存储支持的重要任务。消息经kafka引入到大数据系统平台,存储是一道重要的关卡。今天的大数据培训分享,我们就...

查看详情 >>
大数据培训:Spark通讯架构解析

大数据培训:Spark通讯架构解析

从系统架构的角度来说,通讯是一个非常重要的环节,尤其是在分布式集群环境下,大数据处理任务的效率,通讯是至关重要的部分。Spark是大数据生态的主流框架之一,今天的大数据培...

查看详情 >>
大数据培训:Hive自定义UDF、UDAF、UDTF 函数

大数据培训:Hive自定义UDF、UDAF、UDTF 函数

Hive内置的函数,在实际的大数据分析处理场景下,虽然能够解决大部分的需求,但是遇到比较复杂的场景,既定的函数已经不能很好地解决问题的时候,就需要用到自定义函数了。今天...

查看详情 >>
大数据培训:Spark SQL读取parquet文件操作

大数据培训:Spark SQL读取parquet文件操作

Spark在支持大规模离线数据处理上,是极具优势性能的,而Spark框架的数据处理流程,首先就是引入数据源,其中比较常见的就是parquet文件,通过Spark SQL统一的接口去读取和写入数据。今...

查看详情 >>
大数据培训:HDFS Erasure Coding机制

大数据培训:HDFS Erasure Coding机制

提到大规模数据存储,Hadoop的分布式存储,作为主流的技术方案,实力也是得到市场认可的。Hadoop的分布式文件系统HDFS,其冗余备份机制,确保了数据存储的容错,但是同时也增加了冗...

查看详情 >>
大数据培训:Kafka日志删除与日志压缩

大数据培训:Kafka日志删除与日志压缩

在实时流数据处理当中,随着运行时间不断加长,日志所占据的空间会不断变大,沉冗的数据会占据过多的空间,也拉低运行的效率,因此也需要适时地对日志进行清理。今天的大数据...

查看详情 >>
大数据培训:Spark SQL几种Join实现

大数据培训:Spark SQL几种Join实现

Spark SQL作为大数据查询的重要组件之一,涉及到诸多的语法,其中一个非常重要的就是Join,在数据库领域,Join的重要性不用多强调也能明白。今天的大数据培训分享,我们就来讲讲Sp...

查看详情 >>
大数据培训:Apache Ambari管理平台简介

大数据培训:Apache Ambari管理平台简介

目前的大数据技术生态当中,分布式集群环境的管理,涉及到诸多细节,从安装配置到管理运维,不算是一项轻松的任务,这个时候就需要管理平台来提升工作效率。今天的大数据培训...

查看详情 >>
大数据培训:Flink心跳机制简介

大数据培训:Flink心跳机制简介

对于实时流计算引擎来说,心跳机制是确保客户端及服务端正常运行的重要措施,在Flink当中也同样如此,基于心跳机制,去确保系统的稳定运行。今天的大数据培训分享,我们来讲讲...

查看详情 >>
大数据培训:Spark Shuffle的几种情况

大数据培训:Spark Shuffle的几种情况

Spark框架当中,基于RDD的基本数据模型,内部的运行会带来各种Shuffle的问题。从RDD到Dataframe、DataSet,不同的Stage转换,Shuffle不可避免,但是在转换当中,会造成性能消耗。今天的大数据...

查看详情 >>
热点排行
推荐文章
立即申请>>