如果你是大数据新人,或者想转行进入大数据领域,或者职业生涯上存在一些疑惑,大数据相关工作岗位很多,有大数据分析师、大数据挖掘算法工程师、大数据专家、大数据总监、大数据研究员、大数据科学家等等。接下来我们看看大家关心的大数据工程师岗位工作内容是什么?

大数据开发工作
刚入职一家创业公司做大数据开发~趁之前紧张准备面试还有点余热,不请自来怒答一波~
大数据工程师工作内容取决于你工作在数据流的哪一个环节。
从数据上游到数据下游,大致可以分为:
数据采集 -> 数据清洗 -> 数据存储 -> 数据分析统计 -> 数据可视化 等几个方面
工作内容当然就是使用工具组件(Spark、Flume、Kafka等)或者代码(Java、Scala等)来实现上面几个方面的功能。
具体说说吧:
数据采集:
业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。
数据清洗:
原始的日志,数据是千奇百怪的
1.一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。
2.一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。如果你对大数据分析感兴趣,想系统学习的话,可以加入大数据技术学习交流扣扣裙:数字522数字189数字307,欢迎添加,了解课程介绍,获取学习资源。
3.一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。如用户姓名只保留姓,名字用'*'字符替换。
数据存储:
清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,

大数据工程师的工作涵盖了数据流的多个环节,包括数据采集、清洗、存储、分析统计和可视化。他们使用Flume等工具进行数据聚合,处理脏数据、删除冗余信息并进行数据脱敏。清洗后的数据存储于数据仓库,通过Spark等进行实时或离线分析,最终以图表形式呈现。此外,大数据平台的搭建和维护也是其职责之一。
最低0.47元/天 解锁文章
1981

被折叠的 条评论
为什么被折叠?



