Kafka作为分布式消息系统,在大数据平台架构层面,承担着消息流转和存储支持的重要任务。消息经kafka引入到大数据系统平台,存储是一道重要的关卡。今天的大数据培训分享,我们就...
查看详情 >>从系统架构的角度来说,通讯是一个非常重要的环节,尤其是在分布式集群环境下,大数据处理任务的效率,通讯是至关重要的部分。Spark是大数据生态的主流框架之一,今天的大数据培...
查看详情 >>Hive内置的函数,在实际的大数据分析处理场景下,虽然能够解决大部分的需求,但是遇到比较复杂的场景,既定的函数已经不能很好地解决问题的时候,就需要用到自定义函数了。今天...
查看详情 >>Spark在支持大规模离线数据处理上,是极具优势性能的,而Spark框架的数据处理流程,首先就是引入数据源,其中比较常见的就是parquet文件,通过Spark SQL统一的接口去读取和写入数据。今...
查看详情 >>提到大规模数据存储,Hadoop的分布式存储,作为主流的技术方案,实力也是得到市场认可的。Hadoop的分布式文件系统HDFS,其冗余备份机制,确保了数据存储的容错,但是同时也增加了冗...
查看详情 >>在实时流数据处理当中,随着运行时间不断加长,日志所占据的空间会不断变大,沉冗的数据会占据过多的空间,也拉低运行的效率,因此也需要适时地对日志进行清理。今天的大数据...
查看详情 >>Spark SQL作为大数据查询的重要组件之一,涉及到诸多的语法,其中一个非常重要的就是Join,在数据库领域,Join的重要性不用多强调也能明白。今天的大数据培训分享,我们就来讲讲Sp...
查看详情 >>目前的大数据技术生态当中,分布式集群环境的管理,涉及到诸多细节,从安装配置到管理运维,不算是一项轻松的任务,这个时候就需要管理平台来提升工作效率。今天的大数据培训...
查看详情 >>