主页 > 新闻资讯 > HDFS和Hadoop的关系:Hadoop基于HDFS的数据存储问题

HDFS和Hadoop的关系:Hadoop基于HDFS的数据存储问题

作者:张老师 浏览次数: 2020-01-09 11:54
大数据需要解决的核心问题,其实是针对大规模数据的计算处理问题,而要对海量大数据进行处理,首先需要解决的是大规模数据的存储问题。在Hadoop体系当中,大家所熟知的就是HDFS主要负责数据存储的问题,那么HDFS和Hadoop之间的关系,到底是怎么样的呢?

HDFS和Hadoop

对于大规模的数据存储,主要需要解决三个方面的问题:

①数据存储容量,大数据涉及到的数据量常常会打达到PB级别以上,一般普通的服务器磁盘,也就1-2TB容量,数据存储容量怎么解决?

②数据读写速度,一般的磁盘数据读写速度在几十兆左右,面对PB级别的数据,数据读写速度怎么提升?

③数据可靠性,一块磁盘的使用寿命有限,如果磁盘损坏,存储在其上的数据怎么办?

为了解决这些问题,Hadoop架构采取了分布式存储策略,HDFS作为分布式文件系统,基于大规模分布式服务器集群,对大规模数据进行并行读写及冗余存储,因为HDFS部署在大规模服务器集群上,集群上的所有服务器磁盘都可以调用起来,整个HDFS的存储空间容量也得到极大的扩展。

HDFS当中有两个关键性元素,NameNode和DataNode。

DataNode负责文件数据的存储和读写操作,HDFS将文件数据分割成若干块(block),每个DataNode存储一部分block,这样文件就分布存储在整个HDFS服务器集群中。

NameNode负责整个分布式文件系统的元数据(MetaData)管理,也就是文件路径名,数据block的ID以及存储位置等信息,为了保证数据的高可用,每个block会分别在不同的服务器上存储3份,这也确保了数据的可靠性。

Hadoop能够处理多大量级的数据,就跟计算机集群的规模相关,一般几百台到几千台的机器,搭建成集群之后,整个集群的数据存储容量可以达到几PB到几百PB。

关于HDFS和Hadoop的关系,其实可以这样来理解,Hadoop是整体的大数据处理框架,而HDFS是其中主要负责解决数据存储问题的模块,基于Hadoop搭建的分布式集群,将大规模数据存储任务分割成小块,进行冗余存储,确保数据存储的稳定和可靠性。成都加米谷大数据,专业大数据开发培训,大数据培训2020春季班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>