主页 > 新闻资讯 > HDFS是什么数据库?关于Hadoop HDFS的简介

HDFS是什么数据库?关于Hadoop HDFS的简介

作者:张老师 浏览次数: 2020-02-20 18:33
在Hadoop入门学习阶段,很多同学都知道Hadoop框架当中,由HDFS提供分布式存储支持,因此常常对HDFS产生误会:HDFS是数据库吗?HDFS是什么数据库?事实上,HDFS并非是数据库,官方定义叫做分布式文件系统,该怎么去理解呢?

HDFS,其实是Hadoop Distributed File System的简称,我们从命名就可以看出来,这真的是文件系统,而非数据库。

HDFS是什么数据库

HDFS对需要存储的数据,进行写入和读出,通过统一的命名空间——“目录树”来定位文件。当收到数据存储请求时,HDFS将文件进行分块(Block),一批数据会被分成若干个Block,然后分配到集群当中的计算机进行存储;当需要提取这些数据时,再通过定位文件所在位置,找到需要的数据。

基于这样划分数据块的做法,一个文件的大小可以大于网络中任意一个磁盘的容量。文件的所有块不需要存储在同一个磁盘上,因此它们可以利用集群上的任意一个磁盘进行存储。

简化了存储子系统的设计,将存储子系统控制单元设置为块,可简化存储管理,同时元数据就不需要和块一同存储,用一个单独的系统就可以管理这些块的元数据。

并且,数据块适合用于数据备份进而提供数据容错能力和提高可用性。

HDFS进行数据存储时,涉及到三个节点,Namenode,Datanode以及Secondary Namenode。

Namenode:HDFS的守护进程,用来管理文件系统的命名空间,负责记录文件是如何分割成数据块,以及这些数据块分别被存储到那些数据节点上,它的主要功能是对内存及IO进行集中管理。

Datanode:文件系统的工作节点,根据需要存储和检索数据块,并且定期向namenode发送他们所存储的块的列表。

Secondary Namenode:辅助后台程序,与NameNode进行通信,以便定期保存HDFS元数据的快照。

所以,看完今天的分享,不要再问HDFS是什么数据库这样的问题了,HDFS并不是数据库,而是分布式文件系统,基于Hadoop分布式集群来实现大规模数据存储,以支持下一环节的分布式计算。成都加米谷大数据,专业大数据培训机构,大数据开发2月班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>