在大数据的发展当中,大数据技术是提供关键性支持的,对于企业而言,希望能够以低成本实现满足自身需求的大数据系统平台搭建,而对于大数据开发者而言,需要对主流技术做到熟练地应用和掌握。今天我们主要来聊聊大数据使用的技术,大数据技术架构。
通常来说,企业级的大数据系统平台,需要根据具体需求来进行架构搭建,至少包括数据采集、存储、计算三层。
第一个是数据采集层,以App、saas为代表的服务。
大数据基础阶段需掌握的技术有:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis以及hadoopmapreduce hdfs yarn等。
第二个数据存储层,比如云存储,需掌握的技术有:hbase、hive、sqoop等。
比如:Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。
HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。
第三个是数据计算应用层,以数据为基础,为将来的移动社交、交通、教育,金融进行服务,涉及到大数据架构设计阶段需掌握的技术有:Flume分布式、Zookeeper、Kafka等,以及大数据实时计算阶段需掌握的技术有:Spark Streaming、storm、Flink。
其中,Kafka是一种高吞吐量的分布式、发布/订阅消息系统,可以同时支持离线数据处理和实时数据处理。
ZooKeeper作为Hadoop生态体系中不可或缺的一部分,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。Flink则是新兴流计算框架,尤其在阿里技术系得到重用。
关于大数据使用的技术,大数据技术架构,以上就为大家做了一个简单的介绍了。大数据开发当中,技术的选型是与具体需求结合的,这也就要求大数据开发者具备复合型的技术能力。成都加米谷大数据,专业
大数据培训机构,大数据开发、数据分析与挖掘,零基础班本月正在招生中,课程大纲及试学视频可联系客服领取!