大数据_数据中台_数据汇聚联通

目录

一、数据采集、汇聚的方法和工具

1、线上行为采集

2、线下行为采集

3、互联网数据采集

4、内部数据汇聚

二、数据交换产品

1、数据源管理

2、离线数据交换

3、实时数据交换

三、数据存储的选择

1、在线与离线

2、OLTP与OLAP

3、存储技术


        构建企业级的数据中台第一步就是要实现各个业务系统的数据的互联互通,从物理上打破数据孤岛。主要通过数据汇聚和交换的能力来实现。在面对不同场景,根据数据类型、数据存储要求等进行不同方案的选择。

一、数据采集、汇聚的方法和工具

1、线上行为采集

客户端埋点

全埋点:在终端设备上记录用户所有的操作行为,一般在内嵌SDK做一些初始化配置就可以实现全部收集行为的目的。也叫无痕埋点、无埋点等。优点:不用频繁升级,可获取全量数据 缺点:存储、传输成本高

可视化埋点:在终端设备上记录用户的一部分操作,一般通过服务端配置的方式有选择性的记录与保存。优点:不用频繁发布,成本比全埋点低,比较灵活;缺点:可能未收集到想要的数据,需要重新配置等

代码埋点:根据需求定制每次的手机内容,需要对相应终端模块进行升级。优点:灵活性强、可以单独设计方案,对对存储、带宽等可以做较多优化;缺点:成本高,维护难度大,升级周期长。

服务端埋点

服务端埋点常见的形态有HTTP服务器中的access_log,即所有web服务的日志数据。优点:降低客户端的复杂度、提高信息安全;缺点:无法采集客户端不与服务端交互的信息。

2、线下行为采集

线下数据一般通过硬件采集,如Wifi探测针、摄像头、传感器等。

3、互联网数据采集

这种数据采集方式一般采用网络爬虫,使用一种按照既定规则自动抓取互联网信息的程序或脚本,常用来做网站的自动化测试和行为模拟。常见的网络爬虫框架:Apache Nutch 2、WebMagic、Scrapy、PhpCrawl等,互联网数据采集要遵守相应的安全规范、协议等

4、内部数据汇聚

数据组织形式分类

结构化数据:规则、完整,能够用二维表来表现的数据,常见数据库、excel中的数据。

半机构化数据:数据规则、完整,但不能通过二维表来表现的数据,比如JSON、XML等复杂结构

非机构化数据:数据不规则、不完整,也不能通过二维表来表现,需要复杂的逻辑才能从中提取,如图片、图像、音频等。

   ②数据时效和应用场景分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Happy编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值