主页 > 新闻资讯 > 大数据分布式计算框架:分布式计算技术详解

大数据分布式计算框架:分布式计算技术详解

作者:张老师 浏览次数: 2020-01-13 17:53
目前针对大数据的处理技术,主要还是依靠分布式计算框架来实现的,大数据之所以能够实现数据价值的挖掘和运用,也和分布式计算框架技术的成熟有关。而大数据分布式计算框架,听起来简单,在实际的技术实现上还是比较有难度的。

首先,分布式计算框架到底是个什么东西?

大数据分布式计算框架

其实将分布式计算框架简化来看,就是将大量的数据分切为多个小块,也就是将一个大的数据计算任务进行切割,在计算机集群上,分配到不同的计算机上去执行计算,全部计算完成之后,再将计算结果汇总起来,展示给用户。

简单来说,就是面对大规模的数据处理任务,一台电脑完不成,那么我们就将它分配到多台电脑去完成,将这些电脑组成集群,实现统一的管理和资源调度,保证数据处理任务的完成度和准确度。

那么为什么数据处理需要大数据分布式计算框架呢?

其实很简单,因为单个计算机已经不能完成现阶段的“大”数据处理任务了。举个大家熟悉的例子,每年的春运买票,12306服务器每秒可能就有数以万计的访问量,大家都在检索、查询车票信息,并且不断有人订票退票,相关的车票数据需要实时更新,这样的高并发实时数据处理任务,远远超出单个计算机的处理能力范围。

实现分布式计算的方案,其实一直都有人在研究,但是真正比较成熟的分布式计算方案,还是MapReduce先实现广泛应用。

MapReduce,首先将输入的数据进行切分,接着将每条输入的数据进行映射变换(也就是MapReduce中的Map阶段),再将变换后的数据按照一定的规则进行分组,变换的运算完成之后,将所有的数据进行统计合并(也就是MapReduce中的Reduce阶段)。

目前来说,大数据分布式计算框架,MapReduce是很难被替代的一种,但是MapReduce也并非完美,在实时大规模数据的处理上,MapReduce存在一定的局限,所有后来又出现了Spark、Storm等。成都加米谷大数据,专业大数据培训机构,大数据技术知识分享,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>