主页 > 新闻资讯 > Hadoop大数据迁移:Hadoop数据迁移怎么实现

Hadoop大数据迁移:Hadoop数据迁移怎么实现

作者:张老师 浏览次数: 2020-01-09 16:35
在Hadoop系统当中,基于企业实际运营需求,可能会有大数据迁移的需求,而基于目前的Hadoop大数据框架,Hadoop大数据迁移应该怎样实现呢,今天我们就主要来聊聊这个问题。

首先,在Hadoop系统平台框架下,想要实现大数据迁移,主要要基于Hadoop HBASE、MapReduce来实现。HBASE就是Hadoop框架下的数据库,MapReduce则是Hadoop框架当中的分布式计算框架。

Hadoop大数据迁移

Hadoop大数据迁移,主要要用到的技术是分布式拷贝(Distributed Copy,一般写作DistCp)。

DistCp,根据官方定义,就是适用于大规模集群内部以及集群之间进行大数据拷贝迁移的工具,它本质上也是依靠MapReduce来进行数据迁移处理,将文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝,最终共同完成大数据迁移任务。

MapReduce本身也是基于计算机集群进行大规模数据处理,而执行DistCp,其实就是相当于先进行map阶段的工作,在进行数据迁移时,要保证文件块的有序性,转换的最小粒度是一个文件,而不像其它MR作业一样可以把文件拆分成多个块启动多个map并行处理。

基于HBASE进行数据迁移,还有copyTable方式,主要是以表级别进行数据迁移。copyTable的本质也是利用MapReduce进行同步的,与DistCp不同的时,它是利用MR去scan原表的数据,然后把scan出来的数据写入到目标集群的表。

但是利用copyTable来做大数据迁移,如果涉及到的数据量太大,达到T级,那么执行copyTable,会对整个集群的性能造成一定的影响。并且,因为CopyTable涉及到的是HBASE界面的层面的数据拷贝,所以工作效率会很低,因此在实际的Hadoop大数据迁移任务上,很少实际运用。

以上就是关于Hadoop大数据迁移的部分介绍了,在实际的大数据迁移任务处理上,需要相关人员根据实际业务需求进行调整,不管是DistCp,还是copyTable,关键还是在于保证数据完整性的基础上完成数据的迁移。成都加米谷大数据,大数据技术分享,大数据课程培训,课程详情可联系客服了解!
热点排行
推荐文章
立即申请>>