主页 > 新闻资讯 > 大数据需要学什么技术?企业开发岗需要掌握哪些

大数据需要学什么技术?企业开发岗需要掌握哪些

作者:张老师 浏览次数: 2020-08-18 18:31
大数据要实现落地应用,成熟稳定的技术支持是前提,尤其是在企业要做大数据相关业务,大多依赖于开源框架,因此企业需求的大数据岗位人才,往往需要对开源技术框架有相应的掌握。今天我们就来聊聊,大数据需要学什么技术?企业开发岗需要掌握哪些?

通常来说,企业的大数据系统平台架构,大致分为5层,各个层面的技术,有多种方案可选,而作为大数据技术开发者,对这些解决方案,都需要有相应程度的掌握。

大数据需要学什么技术

1、数据收集层

主要由关系型和非关系型数据收集组件,分布式消息队列构成。

Sqoop/Canal:关系型数据收集和导入工具,是连接关系型数据库和Hadoop的桥梁。

Flume:非关系型数据收集工具,主要是流式日志数据。

Kafka:分布式消息队列,一般作为数据总线使用。

2、数据存储层

主要由分布式文件系统(面向文件存储)和分布式数据库(面向行/列的存储)构成。

HDFS:Hadoop分布式文件系统,具有良好的扩展性和容错性。

Hbase:构建在HDFS之上的分布式数据库,支持行列无限扩展及数据随机查找与删除。

3、资源管理与服务协调层

YARN:统一资源管理与调度系统,它能够管理集群中的各种资源(eg:CPU、内存等),并按照一定的策略分配个上层各类应用。

ZooKeeper:基于简化的Paxos协议实现的服务协调系统,提供类似于文件系统的数据模型,允许用户通过简单的API实现leader选举、服务命名、分布式队列与分布式锁等复杂的分布式通用模块。

4、计算引擎层

包括批处理(时间要求低,高吞吐)、交互式处理(时间要求比较高,sql查询)、流式实时处理(时间要求非常高、广告投放等)三种引擎。

MapReduce/Tez:MapReduce是一个经典的批处理计算引擎,具体良好的扩展性与容错性。

Spark:通用的DAG计算引擎,允许用户充分利用内存进行快速的数据挖掘和分析。

Impala/Presto:开源的MPP系统,允许用户使用标准的SQL处理存储在Hadoop中的数据。

Storm/Spark Streaming:分布式流式实时计算引擎,能够高效的处理流式数据。

5、数据分析层

为方便用户解决大数据问题而提供的各种数据分析工具。

Hive/Pig/SparkSQL:在计算引擎只是构建的支撑SQL或者脚本语言的分析系统,大大降低了用户进行大数据分析的门槛。

Mahout/MLib:在计算引擎上构建的机器学习库,实现常用的机器学习和数据挖掘算法。

关于大数据需要学什么技术,企业开发岗需要掌握哪些,以上就为大家做了简单的介绍了。大数据技术,是作为大数据开发岗位人员的关键性技能,学习掌握一定要牢靠。加米谷大数据,成都大数据培训机构,大数据开发零基础班,本月正在招生中,课程大纲及免费试听可联系客服获取!
热点排行
推荐文章
立即申请>>