主页 > 新闻资讯 > 大数据技术架构详解:大数据架构分层

大数据技术架构详解:大数据架构分层

作者:张老师 浏览次数: 2020-08-17 17:12
大数据技术,其实准确地来说,应该是实现大数据处理一系列流程的技术,这其中包括数据采集与传输、数据存储、数据处理与分析、数据挖掘、数据可视化等各个环节,共同构成一个庞杂的额技术体系。今天的大数据技术架构详解,我们就来聊聊大数据架构分层。

一个典型的大数据技术架构体系,通常包括数据收集层、数据存储层、数据处理层、数据治理与建模层、数据应用层等几个层面。

大数据技术架构详解

一、数据收集层

大数据收集层主要采用了大数据采集技术,实现对数据的ETL操作。根据不同的数据类型,需要采取不同的技术解决方案。

比如说互联网数据,主要通过网络爬虫和一些网站平台提供的公共API(如Twitter和新浪微博API)等方式从网站上获取数据。目前常用的网页爬虫系统有Apache Nutch、Crawler4j、Scrapy等框架;

其次系统日志数据,公司业务平台每天都会产生大量的日志数据。目前常用的开源日志收集系统有Flume、Scribe等;

再次数据库数据,企业通常会使用传统的关系型数据库MySQL和Oracle等来存储数据。除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

二、数据存储层

当大量的数据收集完后,我们需要对大数据进行存储。数据的存储分为持久化存储和非持久化存储。

对于持久化存储而言,最关键的概念就是文件系统和数据库系统。常见的分布式文件系统HDFS、对应的分布式非关系型数据库系统Hbase,以及另一个非关系型数据库MongoDB。而支持非持久化的系统,包括Redis、Berkeley DB和Memcached等。

三、数据处理层

大数据处理分为两类,批量处理(离线处理)和实时处理(在线处理)。

在线处理就是指对实时响应要求非常高的处理,如数据库的一次查询。而离线处理就是对实时响应没有要求的处理,如批量地压缩文档。通过消息机制可以提升处理的及时性。

Hadoop的MapReduce计算是典型的离线批处理框架。而Spark,则算是准实时处理框架。在Hadoop、Spark基础上,人们又提出了hive、pig、impala和spark SQL等工具,进一步简化了某些常见的查询。

Spark Streaming和Storm则在映射和归约的思想基础上,提供了流式计算框架,进一步提升处理的实时性。

四、数据治理与建模层

在对数据进行ETL处理和建模后,需要对获取的数据进行进一步管理,可以采用相关的数据管理工具,包括元数据管理工具、数据质量管理工具、数据标准管理工具等,实现数据的全方位管理。

五、数据应用层

数据应用层是大数据技术和应用的目标。通常包括信息检索、关联分析等功能。Lucene、Solr和Elasticsearch这样的开源项目为信息检索的实现提供了可能。

关于大数据技术架构详解,大数据架构分层,以上就为大家做了简单的介绍了。大数据技术体系庞杂,而想要在相关岗位上立足发展,那么就需要建立起系统化的知识体系才行。成都加米谷大数据,专业大数据培训机构,大数据开发技术培训班,本月正在招生中,课程大纲及试学视频,可联系客服领取!
热点排行
推荐文章
立即申请>>