数据中台(读书笔记)-3-数据开发

本文深入解析数据开发的三大核心:离线开发、实时开发和算法开发。涵盖数据计算的四种类型:批计算、流计算、在线查询和即席分析,以及各类型的技术栈和应用场景,为读者提供全面的数据开发知识体系。

数据开发

数据开发涉及到的产品能力主要包括三部分:离线开发、实时开发和算法开发。

离线开发:主要包括离线数据的加工、发布、运维管理,以及数据分析、数据探索、在线查询和即席分析相关的工作。

实时开发:主要涉及到数据的实时接入和实时处理,简化流数据的加工处理过程。

算法开发:提供简单易用的可视化拖拽和Notebook方式来实现数据价值的深度挖掘。


数据计算的四种类型

(1)批计算

用于批量数据高延迟处理场景,如离线数仓的加工、大规模数据的清洗和挖掘。目前大部分采用MapReduce、Hive、Spark等计算框架处理,其特点就是数据吞吐量大、延时高,适合人机交互少的场景。

(2)流计算

也叫实时计算,对数据的加工和应用有较高的实时性要求,常见于监控告警场景,例如实时分析网络时间,当有异常时需要及时接入处理。例如案例双十一可视化大屏实时数据展示。技术栈FLink、Storm、Spark Streaming等。

常用场景:【流式ETL】、【流式报表】实时采集实时监控、【监控预警】、【在线系统】

(3)在线查询

主要用户数据结果的在线查询、过滤和筛选等,如数据检索、条件过滤等。根据不通的场景有多种不通的选择

a.营销场景对相应延时高的,一般采用缓存型的存储计算,如Redis.

b.对相应时间要求正常的可以选择HBase、MySQL

c.需要进行条件过滤和检索的,可以选择ElasticSearch

常用场景:【画像服务】征信查询、【搜索的应用场景】文档搜索、商品搜索、【圈人场景】通过特定的人快速筛选出业务所需要的群体。

(4)即席分析

主要用于分析型场景和经验统计。一般80%的企业需要在线查询和即席分析。争对【不同的维度】进行分析。技术栈Kylin、Impala、Click House、HAWK、AnalyticDB等。

快速的进行数据的多维度交叉分析,大部分时聚合操作,如group by 、sum、avg、count等。

以上区别如下:


以下的内容有很多看不懂了...............

离线开发

1、作业调度

2、基线控制

3、异构存储

4、代码校验

5、多环境级联

6、推荐依赖


实时开发

1、元数据管理

2、SQL驱动

3、组件化开发


算法开发

1、可视化建模

2、NoteBook建模

3、数据集管理

4、核心算法组件

5、多算法框架

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值