大数据工程师到日常工作到底都是什么?

所谓大数据,就是量大且复杂到人工无法轻易获取、整合的数据。

这个“大”的量是个天文数字,而机器可以 获取、整合、处理,甚至比较精确地分析,能极大效率地提高信息处理速度,让信息更直观地呈现在人们眼前,极大地便利了人们进行进一步的分析。

那么,今天我们就来了解一下大数据工程师的日常工作内容。对于技术完全一头雾水的小伙伴请直接跳到“情景”那一栏开始阅读。

首先让我们先了解下大数据工程的日常工作,通常包括两个方面 – 数据需求以及处理需求。

 

大数据学习必须掌握的五大核心技术有哪些?

一篇文章告诉你优酷背后的大数据秘密!【大数据开发实战技术】戳我阅读

从术语到Spark,10篇必读大数据学习资源戳我阅读

想成为云计算大数据Spark高手,看这里!戳我阅读

最全最新的大数据系统交流路径!!戳我阅读

年薪百万的大数据开发工程师要如何入门?戳我阅读

数据需求

结构:你应该知道数据可以储存在表中或者文件中。

储存在一个预定义的数据模型(即拥有架构)中的数据称为结构化数据。如果数据储存在文件中且没有预定义模型,则称为非结构化数据。(种类:结构化/非结构化)。

容量:数据的数量。(种类:S/M/L/XL/XXL/流)

Sink吞吐量:系统所能接受的数据速度。(种类:H/M/L)

源吞吐量:数据更新和转化进入系统的速度。(种类:H/M/L)

处理需求

查询时间:系统查询所需时间。(种类:长/中/短)

处理时间:处理数据所需时间。(种类:长/中/短)

精度:数据处理的精确度。(种类:准确/大约)

下面,我们举个例子说明上述工作内容:

情景:

为分析一个公司的销售表现需要设计一个系统,为此你需要创建一个数据池,数据池来自于多重数据源,比如客户数据、领导数据、客服中心数据、销售数据、产品数据、博客等。

设计目标:

1. 通过整合各种来源的数据创建一个数据池。

2. 每隔一定时间自动更新数据(在这个案例中可能是一周一次)。

3. 可用于分析的数据(在记录时间内,甚至可能是每天)

4. 易得的架构和无缝部署的分析控制面板。

 

【大数据开发学习资料领取方式】:加入大数据技术学习交流扣扣群957加205后面962,私信管理员即可免费领取开发工具以及入门学习资料

数据要求:

结构:大部分数据是结构化的,并具有一个定义了的数据模型。但数据源如网络日志,客户互动/呼叫中心数据,销售目录中的图像数据,产品广告数据等是非结构化的。图像和多媒体广告数据的可用性和要求可能取决于各个公司。

结论:结构化和非结构化数据

大小:L或XL(选择Hadoop)

Sink 吞吐量:高

质量:中等(Hadoop&Kafka)

完整性:不完整

处理要求

查询时间:中至长

处理时间:中至短

精度:准确

随着多个数据源的集成,要注意不同的数据将以不同的速率进入系统。

例如,网络日志可用高颗粒度连续流进入系统。

大数据开发高薪必备全套资源【免费获取】

 


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值