主页 > 新闻资讯 > 大数据学习:Sqoop组件入门基础

大数据学习:Sqoop组件入门基础

作者:张老师 浏览次数: 2020-11-17 16:07
围绕大数据的诸多生态圈技术组件,本质上来说,一个组件的出现,都是为了解决某种场景下的具体的需求。而在企业级的大数据平台当中,往往需要综合考量,配置合理的解决方案。今天的大数据学习分享,我们来讲讲Sqoop组件入门基础。

大数据学习:Sqoop组件入门基础

Sqoop简介

Sqoop是Apache开源的一款工具,主要是针对关系型数据库与Hadoop集群之间的数据传输。它可以将关系型数据库中的数据导入至Hadoop集群中(即:导入至Hdfs),也可以将Hadoop集群(HDFS)中数据导出至关系型数据库中。

本质上来说,Sqoop可以理解为一款ETL工具,它具有高效和大批量数据传输的特性。原生Sqoop都是采用指令形式提交和触发任务,因此Sqoop入门,往往先从指令学起。

Sqoop功能指令

1、sqoop import指令

将关系型数据库单表导入hadoop集群的hdfs中。在导入过程中可自动创建集群接收表,可处理空数据问题等等。

2、sqoop import-all-tables指令

将关系型数据库中,整库中所有表导入hadoop集群。在导入过程中所有表必须有主键,只能导入所有表的所有列,所有表不能有where条件。

3、sqoop export指令

将hadoop集群数据导出至关系型数据库中。在导入和导出过程中可设置并发导出,但是不宜太大,有时数据库无法承受。

4、sqoop job指令

job指令可以为确认好的导入或导出指令创建一个别名。再次运行时,通过sqoop job指令运行别名即可。省略了大段的指令代码。

5、sqoop metastore指令

可以将本地的sqoop job任务,作为共享任务。远程机器可以通过sqoop job--meat-connect连接到开启共享的任务并执行,实现远程调用。

6、sqoop list-databases指令

可查看连接下所有的数据库列表,方便确认连接源。

7、sqoop list-tables指令

可查看连接下,所有表的列表。

8、sqoop eval指令

能够通过eval进行数据查询或者其它DML操作,可进一步确认数据源的正确性。

9、sqoop merge指令

可对已导入集群的同一表的不同数据块进行合并,确保数据为最新记录。

关于大数据学习,Sqoop组件入门基础,以上就为大家做了简单的介绍了。Sqoop这个组件,在大数据平台当中,主要负责数据传输环节,因此也是ETL过程当中不可或缺的重要技能。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析与挖掘,本月正在招生中,课程大纲及试学视频可联系客服领取!
热点排行
推荐文章
立即申请>>