HDFS和Hadoop的关系：Hadoop基于HDFS的数据存储问题

作者：张老师浏览次数： 2020-01-09 11:54

大数据需要解决的核心问题，其实是针对大规模数据的计算处理问题，而要对海量大数据进行处理，首先需要解决的是大规模数据的存储问题。在Hadoop体系当中，大家所熟知的就是HDFS主要负责数据存储的问题，那么HDFS和Hadoop之间的关系，到底是怎么样的呢？

对于大规模的数据存储，主要需要解决三个方面的问题：

①数据存储容量，大数据涉及到的数据量常常会打达到PB级别以上，一般普通的服务器磁盘，也就1-2TB容量，数据存储容量怎么解决？

②数据读写速度，一般的磁盘数据读写速度在几十兆左右，面对PB级别的数据，数据读写速度怎么提升？

③数据可靠性，一块磁盘的使用寿命有限，如果磁盘损坏，存储在其上的数据怎么办？

为了解决这些问题，Hadoop架构采取了分布式存储策略，HDFS作为分布式文件系统，基于大规模分布式服务器集群，对大规模数据进行并行读写及冗余存储，因为HDFS部署在大规模服务器集群上，集群上的所有服务器磁盘都可以调用起来，整个HDFS的存储空间容量也得到极大的扩展。

HDFS当中有两个关键性元素，NameNode和DataNode。

DataNode负责文件数据的存储和读写操作，HDFS将文件数据分割成若干块（block），每个DataNode存储一部分block，这样文件就分布存储在整个HDFS服务器集群中。

NameNode负责整个分布式文件系统的元数据（MetaData）管理，也就是文件路径名，数据block的ID以及存储位置等信息，为了保证数据的高可用，每个block会分别在不同的服务器上存储3份，这也确保了数据的可靠性。

Hadoop能够处理多大量级的数据，就跟计算机集群的规模相关，一般几百台到几千台的机器，搭建成集群之后，整个集群的数据存储容量可以达到几PB到几百PB。

关于HDFS和Hadoop的关系，其实可以这样来理解，Hadoop是整体的大数据处理框架，而HDFS是其中主要负责解决数据存储问题的模块，基于Hadoop搭建的分布式集群，将大规模数据存储任务分割成小块，进行冗余存储，确保数据存储的稳定和可靠性。成都加米谷大数据，专业大数据开发培训，大数据培训2020春季班正在招生中，详情可联系客服了解！

标签：大数据存储 Hadoop 大数据架构

上一篇：大数据技术架构详解：Hadoop大数据架构解析
下一篇：当前主流的大数据计算框架：大数据计算框架解析

相关推荐

大家都在看

热点排行

推荐文章