主页 > 新闻资讯 > Hadoop零基础入门:分布式文件系统HDFS详解

Hadoop零基础入门:分布式文件系统HDFS详解

作者:张老师 浏览次数: 2020-03-24 14:12
学大数据必学Hadoop,这是大家对大数据的普遍认知,虽然说近年来一直也在不断传出Hadoop没落的说法,但是从实际情况来说,Hadoop在大数据当中,仍然有着不可替代的优势。今天的Hadoop零基础入门,主要为大家分享分布式文件系统HDFS详解。

什么是HDFS

根据官方的定义,HDFS是Hadoop框架下的分布式文件系统,仅需要简单的物理机就能组成分布式集群,通过横向扩展(机器的增加)来提供存储容量,从而来实现大规模数据的存储,为大数据计算提供稳定的底层支持。

Hadoop零基础入门

HDFS并非唯一的分布式文件系统,同样采取分布式思想的还有GFS、TFS等,但是总体来说,HDFS是使用最多的开源分布式文件存储系统,基于Hadoop框架,获得广泛地青睐。

HDFS的特性

①硬件故障检测及恢复

HDFS是基于成百上千台的机器在工作,规模庞大的数据存储在其中,机器难免出故障,HDFS在这一点上,能够接受机器故障,并进行故障检测以及恢复故障文件。

②流式数据访问

运行在HDFS上的应用程序能够访问数据流,HDFS主要用于批处理。

③支持大数据集

HDFS存储的典型文件是GB或TB大小,一个磁盘无法存储大文件,HDFS将文件切分成小块,分别存储在不同服务器的磁盘上,通过网络进行连接。

④简单的一致性模型

HDFS通常是一次写入,多次读取,不支持随机写操作,可以在文件末尾追加。这种方式简化了数据一致性问题。

⑤移动计算比移动数据更划算

针对海量数据的处理,如果需要将数据移动到计算程序所在的节点,受网络的限制,计算将变得非常缓慢。HDFS提供接口将计算程序移动到数据所在的位置,移动应用程序比移动海量数据效率高得多。

⑥跨硬件和平台的可移植性

HDFS易于从一个平台移植到另一个平台,这有助于HDFS成为大量应用程序的首选。

关于Hadoop零基础入门,分布式文件系统HDFS,相信看完以上的内容,大家也都有了更清楚的了解了。目前来说,Hadoop在大数据当中仍然有强大的性能优势,尤其是HDFS,提供稳固的分布式数据存储。成都加米谷大数据,专业大数据培训机构,Hadoop大数据开发班,本月即将开班,课程详情及学习资料可联系客服了解!
热点排行
推荐文章
立即申请>>