大数据技术架构详解：大数据架构分层

作者：张老师浏览次数： 2020-08-17 17:12

大数据技术，其实准确地来说，应该是实现大数据处理一系列流程的技术，这其中包括数据采集与传输、数据存储、数据处理与分析、数据挖掘、数据可视化等各个环节，共同构成一个庞杂的额技术体系。今天的大数据技术架构详解，我们就来聊聊大数据架构分层。

一个典型的大数据技术架构体系，通常包括数据收集层、数据存储层、数据处理层、数据治理与建模层、数据应用层等几个层面。

一、数据收集层

大数据收集层主要采用了大数据采集技术，实现对数据的ETL操作。根据不同的数据类型，需要采取不同的技术解决方案。

比如说互联网数据，主要通过网络爬虫和一些网站平台提供的公共API(如Twitter和新浪微博API)等方式从网站上获取数据。目前常用的网页爬虫系统有Apache Nutch、Crawler4j、Scrapy等框架；

其次系统日志数据，公司业务平台每天都会产生大量的日志数据。目前常用的开源日志收集系统有Flume、Scribe等；

再次数据库数据，企业通常会使用传统的关系型数据库MySQL和Oracle等来存储数据。除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

二、数据存储层

当大量的数据收集完后，我们需要对大数据进行存储。数据的存储分为持久化存储和非持久化存储。

对于持久化存储而言，最关键的概念就是文件系统和数据库系统。常见的分布式文件系统HDFS、对应的分布式非关系型数据库系统Hbase，以及另一个非关系型数据库MongoDB。而支持非持久化的系统，包括Redis、Berkeley DB和Memcached等。

三、数据处理层

大数据处理分为两类，批量处理（离线处理）和实时处理（在线处理）。

在线处理就是指对实时响应要求非常高的处理，如数据库的一次查询。而离线处理就是对实时响应没有要求的处理，如批量地压缩文档。通过消息机制可以提升处理的及时性。

Hadoop的MapReduce计算是典型的离线批处理框架。而Spark，则算是准实时处理框架。在Hadoop、Spark基础上，人们又提出了hive、pig、impala和spark SQL等工具，进一步简化了某些常见的查询。

Spark Streaming和Storm则在映射和归约的思想基础上，提供了流式计算框架，进一步提升处理的实时性。

四、数据治理与建模层

在对数据进行ETL处理和建模后，需要对获取的数据进行进一步管理，可以采用相关的数据管理工具，包括元数据管理工具、数据质量管理工具、数据标准管理工具等，实现数据的全方位管理。

五、数据应用层

数据应用层是大数据技术和应用的目标。通常包括信息检索、关联分析等功能。Lucene、Solr和Elasticsearch这样的开源项目为信息检索的实现提供了可能。

关于大数据技术架构详解，大数据架构分层，以上就为大家做了简单的介绍了。大数据技术体系庞杂，而想要在相关岗位上立足发展，那么就需要建立起系统化的知识体系才行。成都加米谷大数据，专业大数据培训机构，大数据开发技术培训班，本月正在招生中，课程大纲及试学视频，可联系客服领取！

标签：大数据开发大数据技术大数据架构

上一篇：计算机和大数据哪个更好？学计算机还是大数据
下一篇：大数据架构师月薪多少？主要做什么

相关推荐

大家都在看

热点排行

推荐文章