
大数据
文章平均质量分 51
阔海星沉
你只有非常努力才能显得毫不费力
展开
-
数据研发过程中的模型分类
数据研发过程中天天把模型挂嘴边,这次我们从使用和管理的角度分类来看一下。原创 2022-05-24 14:30:35 · 420 阅读 · 0 评论 -
SuperSet 最新 Docker 部署文档(含元数据库切换、汉化、镜像导出)
SuperSet网上大部分文档还是 Python2 的部署方式,尤其是汉化,坑还有不少,使用最新docker镜像重新整理了一下。原创 2022-01-20 10:35:13 · 5159 阅读 · 1 评论 -
数据中台产品设计方法论
数据中台产品设计方法论原创 2021-12-04 16:29:36 · 1491 阅读 · 0 评论 -
数据⽣命周期的六个阶段
基于⼤数据环境下数据在组织机构业务中的流转情况,定义了数据⽣命周期的6个阶段,具体各阶段的定义如下:数据采集:指新的数据产⽣或现有数据内容发⽣显著改变或更新的阶段。对于组织机构⽽⾔,数据的采集既包含在组织机构内部系统中⽣成的数据也包含组织机构从外部采集的数据。数据存储:指⾮动态数据以任何数字格式进⾏物理存储的阶段。数据处理:指组织机构在内部针对动态数据进⾏的⼀系列活动的组合。数据传输:指数据在组织机构内部从⼀个实体通过⽹络流动到另⼀个实体的过程。数据交换:指数据经由组织机构内部转载 2021-07-01 11:01:03 · 30798 阅读 · 0 评论 -
数据研发岗面试题库
数据研发岗面试题库原创 2021-05-16 17:17:51 · 708 阅读 · 1 评论 -
增量数据同步实现方案 Dataworks VS Kettle
场景需求GPS实时数据,每小时同步一次数据有 3 分钟的延迟任务参数设置: dt = ${bdp.system.cyctime} gpstime>='${t1}' and gpstime<='${t2}' -p"t1='$[yyyy-mm-dd-1/24] $[hh24-1/24]:00:00' t2='$[yyyy-mm-dd-1/24] $[hh24-1/24]:59:59'"调度设置:调度周期为小时开始时间 0:30,时间间隔 1 小时,结束时间 23:591、危化品车原创 2021-04-30 20:13:59 · 1133 阅读 · 0 评论 -
大数据治理不是人人都会(三)
作者结合在区域医疗领域数据治理的经验,以Kimball数仓建设方法论为核心,希望能深入浅出的讲解大数据治理的思想和方法,让大家对大数据治理的功能效用有一个全面的认识,走出一些理解的误区。(阔海星沉@优快云原创,转载请注明出处)原创 2021-03-21 17:19:13 · 247 阅读 · 0 评论 -
大数据治理不是人人都会(二)
作者结合在区域医疗领域数据治理的经验,以Kimball数仓建设方法论为核心,希望能深入浅出的讲解大数据治理的思想和方法,让大家对大数据治理的功能效用有一个全面的认识,走出一些理解的误区。(阔海星沉@优快云原创,转载请注明出处)原创 2021-03-21 17:16:26 · 155 阅读 · 0 评论 -
SQL查询实现差集(补集)运算
SQL作为基础技能,集合运算时常会遇到,交集和并集的实现没什么好说的,唯独差集(补集)的实现还算有点儿意思原创 2021-03-19 14:28:23 · 6434 阅读 · 2 评论 -
大数据治理不是人人都会(一)
作者结合在区域医疗领域数据治理的经验,以Kimball数仓建设方法论为核心,希望能深入浅出的讲解大数据治理的思想和方法,让大家对大数据治理的功能效用有一个全面的认识,走出一些理解的误区。原创 2021-02-05 09:40:47 · 261 阅读 · 0 评论 -
数据开发中,使用短文本相似度匹配,实现字段名自动映射
简介:字段名自动映射,开发模型的时候,利用原始数据进行模型开发时,部分工作量是从数据到模型进行字段映射,不再看花眼;原理:利用莱文斯坦距离(fuzzywuzzy)进行短文本相似度匹配,自动找到"最"合适的字段;当然,最后人肉筛查还是必不可少的。# 简介:字段名自动映射,开发模型的时候,利用原始数据进行模型开发时,部分工作量是从数据到模型进行字段映射,不再看花眼# 原理:利用莱文斯坦距离(fuzzywuzzy)进行短文本相似度匹配,自动找到"最"合适的字段;当然,最后人肉筛查还是必不可少的。# 作者:原创 2021-01-10 14:00:43 · 566 阅读 · 0 评论 -
三种基础数据质量的评估方法,以及Python实现
基础数据质量评估方法1、统计表数据的饱和度(空值率)分析2、通过码表对照分析阈值正确率分析(实时表和维度表的关联性 )3、时间饱和度(数据连续性)分析4、主体表和行为表的关联性(暂无例子,根据具体场景设计)统计表数据的空值率# 简介:生成一个表的字段饱和度(空值率) SQL 脚本,可以选择手动跑或自动跑# 作者:王振东# 日期:2021-02-07from odps import ODPSo = ODPS('ak', 'sk', 'project_namme', endpoint='h原创 2021-01-10 12:03:53 · 2846 阅读 · 0 评论 -
数据治理中 PyODPS 的正确使用方式
表饱和度(字段是否为空)、字段阈值(数值类字段取值是否超出有效边界)是评估数据质量的关键指标,由于是单表内字段级别的校验和统计,并且几乎涉及所有表,范围大、逻辑简单、重复性强,很多数据工程师会使用 PyODPS 进行相关功能的开发。本文基于 PyODPS 分别使用 3 种方式实现了“饱和度统计”功能,展示了它们的执行效率,并分析了原因。原创 2020-06-21 09:55:11 · 2507 阅读 · 0 评论 -
搭建 SFTP 交换平台,实现用户隔离,解决 “client_loop: send disconnect: Broken pipe“
购买了阿里云主机,默认镜像(centos)自带了 SSH 和 SFTP。需求是,通过这个主机的 SFTP,每个用户一个目录,都是互相隔离的。原创 2020-09-07 10:35:16 · 8880 阅读 · 0 评论 -
三种云计算模式
云计算的三种服务模式:IaaS,PaaS和SaaS转载 2020-09-21 17:57:08 · 3548 阅读 · 0 评论 -
设置 FTP 服务内网穿透给外网访问
与 SFTP 不通 FTP 服务的网络通讯更复杂,需要一个控制端口(21)和一个数据端口(默认20)。因此想把内网的 FTP 服务通过端口映射提供给外网使用,需要比较复杂的策略。原创 2020-09-30 12:21:07 · 6430 阅读 · 0 评论 -
使用 PyODPS 统计 ODPS 空间内的表数据信息
使用 python 统计 ODPS 空间内的表和数据情况。原创 2020-10-28 11:24:19 · 3666 阅读 · 0 评论 -
MacOS 安装 Kettle 必须使用 JDK1.8.0_202
公司配的 MacBook Pro 虽然高大上,但也有让人郁闷的时候。历经千辛万苦,终于安装Kettle成功。MacOS 装 Kettle 必须用 JDK1.8.0_202,并且需要手动配置环境变量。原创 2020-11-22 15:20:35 · 5247 阅读 · 30 评论 -
ODPS与Kettle融合之道
传统的数据治理厂商(没有采用云计算技术),往往使用 Oracle 作为数仓的存储,使用 Kettle 作为ETL和流程调度工具。依托于 Oracle 的稳定、高效,以及 Kettle 的灵活,传统架构可以胜任各种复杂的场景。随着云计算技术的不断发展和推广,传统架构正在慢慢淡出市场,但是交付过程中,不可避免的会遇到把云计算和传统厂商相集成的场景。本文主要介绍的是,在上述的场景下,如何保证 DataX 作业和 Kettle 作业的同步问题。原创 2020-12-05 12:57:56 · 1035 阅读 · 0 评论