主页 > 新闻资讯 > 如何开发大数据系统?大数据系统如何搭建

如何开发大数据系统?大数据系统如何搭建

作者:张老师 浏览次数: 2020-08-21 17:49
大数据在国内的落地发展,基本上也是十来年了,越来越多的企业都拥有了自身的大数据系统平台,并且越是大企业,拥有的大数据资源也更加丰富,对大数据的重视程度也越高。而要利用好大数据,第一步就是要有属于自己的大数据系统。今天我们就主要来聊聊,如何开发大数据系统?

大数据系统开发,对于企业而言的低成本选择,基本上就是基于开源框架,以Hadoop、Spark为首的大数据技术生态圈,也给出了足够多的技术解决方案,来满足企业基于大数据的各种需求。

如何开发大数据系统

如何开发大数据系统?首先就是要进行大数据系统的架构设计,从数据获取到数据处理,数据展现,数据应用,各个环节都有相应的模块。

数据获取:

用户访问我们的产品会产生大量的行为日志,因此我们需要特定的日志采集系统来采集并输送这些日志。Flume是目前常用的开源选择,主要完成分布式的海量日志采集、聚合和传输。

对于非实时使用的数据,可以通过Flume直接落文件到集群的HDFS上。而对于要实时使用的数据来说,则可以采用Flume+Kafka,数据直接进入消息队列,经过Kafka将数据传递给实时计算引擎进行处理。

业务数据库的数据量相比访问日志来说小很多。对于非实时的数据,一般定时导入到HDFS/Hive中,常用的工具是Sqoop。而对于实时的数据库同步,可以采用Canal作为中间件,处理数据库日志,将其计算后实时同步到大数据平台的数据存储中。

数据存储:

无论上层采用何种的大规模数据计算引擎,底层的数据存储系统基本还是以HDFS为主。在HDFS的基础上,再使用Hive来将数据文件映射为结构化的表结构,以便后续对数据进行类SQL的查询和管理。

数据处理:

数据处理就是我们常说的ETL,这个环节涉及到:计算引擎、调度系统、元数据管理。

对于大规模的非实时数据计算,目前一样采用Hive和spark引擎。

实时计算引擎方面,以storm、spark streaming、Flink为代表。

调度系统上,轻量级的Azkaban受到青睐。

元数据管理,一般需要自己开发一套元数据管理系统,用来规划数据仓库和ETL流程中的元数据。

数据应用:

数据应用包括辅助经营分析的一些报表指标,商城上基于用户画像的个性化推送,还有各种数据分析报告等等。这个层面,可视化是非常关键的,有开源的工具,也可以引入商业的BI软件。

关于如何开发大数据系统,大数据系统如何搭建,以上就为大家做了一个简单的介绍了。对于企业而言,建立起自己的大数据系统平台,是实现大数据应用的关键性手段,也需要引入专业的大数据人才来实现。成都加米谷大数据,专业大数据培训机构,大数据开发零基础班,本月正在招生中,课程大纲及学习资料,可联系客服获取!
热点排行
推荐文章
立即申请>>