自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 数据仓库定义

加粗样式@TOC数据仓库定义:面向主题的,集成的,相对稳定的,反应历史变化的数据集合,用于支持管理决策。面向主题在较高的层次上对企业的特定的应用场景来分析和抽象数据,作为单独的分析和研究的领域。1.在仓储系统中,经常会有一个过程来衡量货物的周转率,这个时候有一个仓储的概念,抽象一个货物从进入仓库到出仓库的时间周期。如果这个周期特别长,说明整个货物的周转率偏低。这个时候就可以基于这个特定的...

2019-11-21 20:29:23 842

原创 网站数据nlp

【代码】网站数据nlp。

2025-02-12 11:06:18 82

原创 打开windows文件代码

【代码】打开windows文件代码。

2025-02-12 10:30:58 106

原创 东家-用户360项目

● 项目背景:随着公司的的快速发展,运营团队期望通过用户核心标签进行高质用户筛选、同时对流失及挽留用户进行召回,而当前和下标签数据分散(存在历史标签,但标签非核心关注),因此需要数仓团队通过核心标签开发,助力运营对客群识别,提升用户复购,开展营销活动。● 难点在于DWS建设时核心指标切换时需要考虑下游500+任务影响评估,切换出错回造成线上事故,因此在开始梳理负面影响及使用业务方进行逐步切换,同时在切换前进行任务不断迭代优化,直到时效最佳,并保障数据质量和线上一致(做数据探查、数据对比、抽样质检)

2025-02-11 20:34:52 701

原创 使用DrissionPage爬取网站数据

【代码】使用DrissionPage爬取网站数据。

2025-01-14 10:12:56 229

原创 特征工程构建

算子:cnt: 表示count distinctcv: 变异系数freq:次数incr:近30天比近30至210天新增数is: 是否命中某条规则last:距离现在最近的时间天数first:首单距离现在的天数max:最大的一笔购买mean:最近一年月平均,最近一月周平均,最近一月日平均购买min:最小的一笔购买mom:月环比ratio:两个字段直接stddev:方差sum:求和...

2020-06-11 15:44:16 175 1

原创 用户行为数仓的业务

1.用户用户以设备作为判断标准,在移动统计中,每个独立设备认为是一个独立用户。安卓系统根据imei号,IOS系统根据openUDUID来标识一个独立用户,每部手机一个用户。2.新增用户首次联网使用应用的用户,如果一个用户首次打开某APP,那这个用户定义为新增用户:卸载再安装的设备,不会被算作一次新增,新增用户包括日新增用户,周新增用户,月新增用户。3.活跃用户打开应用的用户即为活跃用户,...

2020-04-16 09:19:35 276

原创 面试题目积累

加粗样式@TOC面试题目积累hashMap的实现原理(1)hashMap不是线程安全的,ConcurrentHashMap是线程安全的(2)利用key的hashCode重新hash计算出当前对象的元素在数组中的下标(3)存储时,如果出现hash值相同的key,此时有两种情况。(1)如果key相同,则覆盖原始值;(2)如果key不同(出现冲突),则将当前的key-value放入链表中(4...

2020-03-20 16:09:19 152

原创 数据仓库分层

加粗样式@TOC数据仓库分层1.ods层原始数据层,存放原始数据,直接加载原始日志,数据,数据保持原貌不做处理。扩展:1.让数据仓库和业务系统隔离,如果我们统计数据直接使用mysql,复杂sql例如多表join,所带来的磁盘和网络io有可能会影响线上业务系统。2.一个公司有很多的业务系统2.dwd层对ods层数据进行清晰(去除空值,脏数据,超过极限范围的数据)3.dws层以d...

2020-03-17 16:09:28 139 1

原创 数据仓库的建模目标

加粗样式@TOC数据仓库的建模目标1.访问性能能够快速查询所需要的数据,减少数据I/O。2.数据成本减少不必要的数据冗余,实现计算结构复用,降低大数据系统中的存储成本和计算成本3.使用效率改善用户应用体验,提高使用数据的效率在图书管里面一个很好的图书的索引,就能提高用户的使用效率,就可以准确快速的定位到想看的数据,想看的书,想看的数据的类别4.数据质量改善数据统计口径的不一致...

2020-03-16 20:36:20 647

原创 Hadoop优化

1)数据输入小文件处理(1)合并小文件,对小文件进行归档(har),自定义inputforma将小文件存储成squenceFile文件。(2)采用ConbineFileInputFormat来作为输入,解决输入端大量小文件场景。(3)对于大量小文件job,可以开启JVM重用。2)map阶段(1)增大环形缓冲区大小。由100M扩大到200M。(2)增大缓冲区溢写的比例。由80%扩大到90...

2019-12-16 10:58:30 141

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除