主页 > 新闻资讯 > 大数据使用的技术:大数据技术架构

大数据使用的技术:大数据技术架构

作者:张老师 浏览次数: 2020-09-10 17:15
在大数据的发展当中,大数据技术是提供关键性支持的,对于企业而言,希望能够以低成本实现满足自身需求的大数据系统平台搭建,而对于大数据开发者而言,需要对主流技术做到熟练地应用和掌握。今天我们主要来聊聊大数据使用的技术,大数据技术架构。

通常来说,企业级的大数据系统平台,需要根据具体需求来进行架构搭建,至少包括数据采集、存储、计算三层。

大数据使用的技术

第一个是数据采集层,以App、saas为代表的服务。

大数据基础阶段需掌握的技术有:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis以及hadoopmapreduce hdfs yarn等。

第二个数据存储层,比如云存储,需掌握的技术有:hbase、hive、sqoop等。

比如:Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。

HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。

第三个是数据计算应用层,以数据为基础,为将来的移动社交、交通、教育,金融进行服务,涉及到大数据架构设计阶段需掌握的技术有:Flume分布式、Zookeeper、Kafka等,以及大数据实时计算阶段需掌握的技术有:Spark Streaming、storm、Flink。

其中,Kafka是一种高吞吐量的分布式、发布/订阅消息系统,可以同时支持离线数据处理和实时数据处理。

ZooKeeper作为Hadoop生态体系中不可或缺的一部分,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。

Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。Flink则是新兴流计算框架,尤其在阿里技术系得到重用。

关于大数据使用的技术,大数据技术架构,以上就为大家做了一个简单的介绍了。大数据开发当中,技术的选型是与具体需求结合的,这也就要求大数据开发者具备复合型的技术能力。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析与挖掘,零基础班本月正在招生中,课程大纲及试学视频可联系客服领取!
热点排行
推荐文章
立即申请>>