主页 > 新闻资讯 > 大数据完整项目案例:Facebook的Hadoop集群应用

大数据完整项目案例:Facebook的Hadoop集群应用

作者:张老师 浏览次数: 2020-02-18 15:41
在大数据行业,分布式架构,是大数据处理的主流思想之一,而基于分布式架构研发的Hadoop框架,在大数据市场上无疑是早期的支持性框架,直至今天,Hadoop仍然是很大一部分企业搭建大数据平台的首选之一。今天我们为大家分享一个大数据完整项目案例,那就是来自Facebook的Hadoop集群。

大数据完整项目案例

对于Hadoop应用得比较早的大平台,Facebook是其中之一,早在几年前,Facebook的Hadoop集群就是行业内已知的规模最大的Hadoop存储集群了。这个Hadoop存储集群,单一HDFS集群中存储容量达21 PB,具备2000个机器,每个机器12 TB(有几个机器是每个24TB)。

1200个机器每个有8个处理器核心,800个机器每个有16个核心,每个机器有32 GB内存,每个机器有15个映射/化简(map-reduce)任务,已配置存储容量总共超过21PB,一举超过了Yahoo的14PB集群。

正是基于这样的集群环境,Facebook在面对每月活跃用户超过4亿个、页面浏览量超过5000亿人次、每个月共享的内容多达250亿则的Facebook业务数据,实现了高效稳定的存储支持。

Facebook有多个Hadoop集群,其中最大的一个集群用于数据仓库,这个集群:

每天增加12 TB的压缩数据;

每天扫描800 TB的压缩数据;

每天处理25000个映射/化简作业;

HDFS里面有6500万个文件;

30000个客户机同时访问HDFS NameNode。

具备这样的容量的集群环境,才支撑起了Facebook对海量数据的管理,以及为用户提供智能化服务。并且随着业务的发展,Hadoop集群的高扩展性也成为优势,根据实际需求可以快速实现集群容量扩展,支持业务的持续发展。

以上就是今天为大家分享的Facebook大数据完整项目案例,到目前来说,Facebook的Hadoop集群仍然具有长期的生命力,基于实际业务的发展,提供稳固的底层支持。并且,Hadoop还支持接入Spark、Flink等新的计算引擎,不断提升系统的数据处理性能。成都加米谷大数据,大数据知识分享,大数据培训班课程,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>