主页 > 新闻资讯 > 零基础学习大数据:分布式文件系统入门介绍

零基础学习大数据:分布式文件系统入门介绍

作者:张老师 浏览次数: 2020-04-07 17:03
随着大数据的火热,带动了越来越多的人对大数据感兴趣,看好大数据行业的前景,开始学习大数据,而很多人因为没有相关的基础,零基础学习大数据总是会遇到相应的困难。今天的零基础学习大数据分享,我们来简单介绍一下分布式文件系统的相关知识。

在大数据技术体系当中,分布式架构是非常关键的理论支撑,以Hadoop来说,Hadoop系统框架当中,HDFS就是分布式文件系统,提供高吞吐的数据访问,支撑大批量数据的存取,在面对大规模数据存储任务的时候,也能提供稳固的支持。

零基础学习大数据

分布式文件系统是为了解决,在信息爆炸时代中,数据量成指数级增长,传统通过增加硬盘个数来扩展计算机文件系统的存储容量的方式,在容量大小、容量增长速度、数据备份、数据安全等方面的表现都差强人意,而提出的解决方案。

分布式文件系统的数据存储解决方案,归根结底是将将大问题划分为小问题。

大量的文件,均匀分布到多个数据服务器上后,每个数据服务器存储的文件数量就少了,另外通过使用大文件存储多个小文件的方式,总能把单个数据服务器上存储的文件数降到单机能解决的规模。

对于很大的文件,将大文件划分成多个相对较小的片段,存储在多个数据服务器上(目前,很多本地文件系统对超大文件的支持已经不存在问题了,如ext3文件系统使用4k块时,文件最大能到4T,ext4则能支持更大的文件,只是受限于磁盘的存储空间)。

理论上,分布式文件系统可以只有客户端和多个数据服务器组成,客户端根据文件名决定将文件存储到哪个数据服务器,但一旦有数据服务器失效时,问题就变得复杂,客户端并不知道数据服务器宕机的消息,仍然连接它进行数据存取,导致整个系统的可靠性极大的降低,而且完全有客户端决定数据分配时非常不灵活的,其不能根据文件特性制定不同的分布策略。

零基础学习大数据,以上就是今天关于分布式文件系统入门的简单介绍了。在大数据学习当中,理解和掌握分布式理论是非常重要的部分,尤其是Hadoop当中的HDFS文件系统,尤其需要重点学习掌握。加米谷大数据,成都大数据培训机构,大数据开发零基础学习班,本月正在招生中,课程大纲及试学视频可联系客服获取!
热点排行
推荐文章
立即申请>>