主页 > 新闻资讯 > 大数据平台基础知识培训:大数据平台基础入门

大数据平台基础知识培训:大数据平台基础入门

作者:张老师 浏览次数: 2020-06-08 16:55
大数据要实现业务落地的前提,首先需要搭建起自身的大数据平台,然后基于大数据平台,去实现对数据价值的挖掘和应用,助力企业实现更科学的数据推动决策,从而获得竞争优势。今天的大数据平台基础知识培训分享,我们来聊聊大数据平台基础入门。

大数据平台,目前行业当中的主流选择,集中在Hadoop、Spark、Storm、Flink等几个框架上,根据实际的需求,来选择适合的框架搭建平台,这是常规操作。

大数据平台基础知识培训

按照对数据进行处理的方式,大数据平台可以分为三类,批处理系统、流处理系统以及混合处理系统(批处理+流处理)。

批处理:

典型的批处理系统就是Apache Hadoop。Hadoop是首个在开源社区获得极大关注的大数据处理框架,即使过去了这么多年,Hadoop在基础架构上仍然占据重要位置。

从今天的眼光来看,MapReduce作为Hadoop默认的数据处理引擎,存在着很多的不足。比如:编程模型抽象程度较低,仅支持Map和Reduce两种操作;Map的中间结果需要写入磁盘,多个MR之间需要使用HDFS交换数据,不适合迭代计算(机器学习、图计算)等。但是,作为最早的大数据处理引擎,值得被铭记。

流处理:

Apache Storm是一种侧重于低延迟的流处理框架,它可以处理海量的接入数据,以近实时方式处理数据。Storm延时可以达到亚秒级。Storm的基本思想是使用spout拉取stream(数据),并使用bolt进行处理和输出。

批处理+流处理:

Apache Spark是基于Hadoop MapReduce计算模型的优化,Spark通过内存计算模型和执行优化大幅提高了对数据的处理能力(在不同情况下,速度可以达到MR的10-100倍,甚至更高)。

而Spark的流处理能力,则是由Spark Streaming模块提供的。提出微批次(Micro-Batch)的概念,即把一小段时间内的接入数据作为一个微批次来处理。但是与Storm等原生的流处理系统相比,Spark Streaming的延时会相对高一些。

Apache Flink同样支持流处理和批处理,但是FLink的思想,是将批处理任务当作有界的流来处理,Flink的流处理模型将逐项输入的数据作为真实的流处理。Flink提供了DataStream API用于处理无尽的数据流。

在目前的数据处理框架领域,Flink可谓独树一帜。虽然Spark同样也提供了批处理和流处理的能力,但Spark流处理的微批次架构使其响应时间略长。Flink流处理优先的方式实现了低延迟、高吞吐和真正逐条处理。

关于大数据平台基础知识培训,大数据平台基础入门,以上就为大家做了简单的介绍了。大数据的从业者,尤其是技术开发岗位的从业者,对于大数据平台知识,是一定要掌握扎实的。加米谷大数据,成都大数据培训机构,大数据开发,高级技能提升班,本月正在招生中,课程大纲及学习资料可联系客服获取!
热点排行
推荐文章
立即申请>>