主页 > 新闻资讯 > 大数据培训:大数据实时分析架构解读

大数据培训:大数据实时分析架构解读

作者:张老师 浏览次数: 2021-07-23 17:18
在大数据数据处理的诸多场景下,离线分析和实时分析是主要的两大类需求,这两类需求,从开源产品来说,也都有着很多的解决方案可供选择。今天的大数据培训分享,我们主要来讲讲大数据实时分析这一块,相关的一些产品和架构。

OLAP分析工具三种类型

当前Lambda、Kappa或者流批一体数仓架构基础上,为了对实时数据的快速灵活分析,通常会在数据加工链路上引入OLAP工具进行数据分析。OLAP根据存储格式的不同通常涵盖ROLAP、MOLAP和HOLAP三类:

大数据培训:大数据实时分析架构解读

*ROLAP:基于关系模型存放数据,通过并行化/内存加速计算,支持任意SQL表达,大数据情况下复杂查询耗时分钟级以上。典型如Impala、Greenplum、HAWQ、SparkSQL等。

*MOLAP:以多维数组(Multi-dimensional Array)存储模型的OLAP,支持超大原始数据集,支持高并发,数据需要预计算,不支持明细数据查询。典型如Druid、Kylin,适用对性能要求高的场景。

*HOLAP:是MOLAP和ROLAP类型的混合运用,其目的是根据不同场景来利用不同OLAP的特性。

实时分析技术用于从海量数据中实现数据实时摄入和低延时探查分析,与实时计算针对无界数据流的低延时加工处理和计算不同,实时分析技术进一步提供对数据集的快速摄入存储、低延时OLAP多维分析查询能力。

其通常对实时计算产出的中间结果进行摄入和多维存储,并提供灵活、低延时的OLAP查询分析。为实现对数据的实时分析能力,特别是满足海量数据、高并发、低延时、自助灵活的数据分析,通常借助MOLAP(Multi-dimensional OLAP)方式实现,技术原理上是基于多维数据组织的OLAP。

该技术采用多维数组存储维度和事实数据,通过对维度进行编码和对事实数据直接寻址的方式获得其映射关系,从而避免了连接操作的开销。基于MOLAP的实时分析技术不采用关系型数据库存储,采用压缩、索引以及缓存技术,在数据摄入同时按不同维度进行预聚合,使得MOLAP具有高效的查询效率。

此外,受益于当前计算领域软硬件、算法等技术的进步和发展,除MOLAP之外,以ROLAP为代表的ClickHouse以其灵活的SQL支持、快速OLAP分析性能和Kafka等消息队列流数据对接能力,在实时数据分析领域得到了较为广泛的应用,但其在超大数据规模、高并发支持等方面往往受到限制。

大数据培训:大数据实时分析架构解读

图:MOLAP架构原理

Apache Druid实时分析引擎

随着大数据生态圈开源技术的不断发展,实时分析领域的技术组件不断丰富。其中Apache Druid作为一种新型的MOLAP引擎已越来越受到行业的青睐,在互联网领域得到了广泛应用,目前使用的公司有:阿里、滴滴、知乎、360、eBay,Hulu等。Apache Druid支持高吞吐低延时的数据实时摄取、SQL化灵活的数据实时探查、高性能的数据聚合分析,简便的水平扩展,适用于构建数据量大、可扩展能力要求高的分析型查询系统。

Apache Druid可以在数据摄入前对数据进行预聚合,这种预聚合操作被称之为Rollup,可以显著地节省存储成本;同时Apache Druid支持两种查询:Rest、SQL方式,特别适合于构建大数据实时分析的基础设施。

Apache Druid支持将元数据保存在MySql中,基于HDFS实现深度存储,满足实时数据实时摄入,并能对结果进行实时查询。此外,Pinot、ClickHouse等支持低延时数据摄入和分析的引擎也逐步在各企业的实际场景应用中得到应用。

大数据培训:大数据实时分析架构解读

图:Apache Druid工作流程

典型数据分析引擎特性比较:

大数据培训:大数据实时分析架构解读

实时分析技术可以与实时计算进行有机协同,将实时计算加工的结果进一步摄入到实时分析引擎中,提供“入库即查”的能力,解决实时应用中需要长时间窗口内数据存储组织、去重统计和多维度灵活聚合的痛点。

关于大数据培训,大数据实时分析架构,以上就为大家做了一些基础的介绍了。在现有的大数据生态体系下,实时分析面临越来越广的应用场景和需求,相关的开源产品,也需要开发者们了解掌握。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析与挖掘,零基础班本月正在招生中,课程大纲及试学视频,可联系客服获取!
热点排行
推荐文章
立即申请>>