大数据工程师工作强度怎么样？大数据工程师加班多吗？

作者：张老师浏览次数： 2019-11-12 14:49

大数据行业的兴起，将大数据工程师这个职位引入到人们的视线当中，火热涌入大数据市场谋求发展的人才，对大数据工程师工作强度也有所担心。联想到现在普遍存在的IT从业人员加班常态，大数据工程师作为与IT行业相近的职位，工作强度怎么样，加班多吗，这些问题大家有所担心是正常的。

大数工程师工作强度与从事的大数据工作内容处于数据流的哪一环有关。海量的大数据，量大且复杂到人工无法轻易获取、整合，只能依靠大数据技术去实现获取、整合、处理，甚至比较精确地分析。大数据技术能极大效率地提高信息处理速度，让信息更直观地呈现在人们眼前，极大地便利了人们进行进一步的分析。

二大数据工程师的工作内容，从数据上有到下游，大致可以分为数据采集->数据清洗->数据存储->数据分析统计->数据可视化等几个流程阶段。每个阶段所需要使用到的技术或者工具存在一定差异。

总的来说，大数据工程师工作内容就是通过使用工具组件(Spark、Flume、Kafka等)或者代码(Java、Scala等)来实现上面几个方面的功能。

具体来说——

数据采集：

业务系统的埋点代码时刻会产生一些分散的原始日志，可以用Flume监控接收这些分散的日志，实现分散日志的聚合，即采集。

数据清洗：

原始的日志，数据是千奇百怪的。

一些字段可能会有异常取值，即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据，需要对这些记录进行过滤或者字段数据回填。

一些日志的字段信息可能是多余的，下游不需要使用到这些字段做分析，同时也为了节省存储开销，需要删除这些多余的字段信息。

一些日志的字段信息可能包含用户敏感信息，需要做脱敏处理。如用户姓名只保留姓，名字用'*'字符替换。

数据存储：

清洗后的数据可以落地入到数据仓库(Hive)，供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高，则可以把日志记录入到kafka。

数据分析统计：

数据分析是数据流的下游，消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据，简单的报表统计可以用sql在kylin或者hive统计，复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司会有BI的岗位专门负责这一块。

数据可视化：

用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据。

另外，大数据平台(如CDH、FusionInsight等)搭建与维护，也可能是大数据工程师工作内容的一部分。

关于大数据工程师工作强度的问题，不能完全一刀切地认为工作强度大或者工作强度小，关键在于工作内容本身。未来大数据行业前景可期，大数据工作的价值也是值得肯定的。

标签：大数据开发大数据就业大数据工程师

上一篇：大数据专业就业前景：学大数据真的容易找工作么
下一篇：权威大数据培训机构：培训机构大数据靠谱吗

相关推荐

大家都在看

热点排行

推荐文章