
早起的码农
文章平均质量分 72
大数据学习圣地
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
-早起的码农
这个作者很懒,什么都没留下…
展开
-
聊聊数据仓库
] 传统数仓的解决方案,行为分析的解决方案 1. 使用数据的底表和表的字段 2. 定义中间表的创建逻辑(过滤条件,分组条件,指标计算) 3. 最终结果的业务逻辑 4. 查询优化 (过滤前置,数据倾斜,shuffle,关联方式…[] 实时数仓解决方案:1,通过模型字段扩展,预先定义用户新增日期,当日活跃状态,设备类型等状态, 2,实时更新用户的属性 3,通过where条件过滤的方式。模型定义后,对模型生成效率的优化至关重要,不一样的解决方式,会影响模型的查询生成效率,模型的复用度,影响用户使用体验。原创 2022-10-17 17:21:23 · 1085 阅读 · 0 评论 -
隐私保护广告行业新生态
不管我们用IOS手机,还是ANDROID类型的手机,又或者是浏览器,只有拥有一个用户设备的唯一标识才能对使用该设备的用户进行精准的广告投放,个性化推荐以及广告等浏览的频次控制。下面让我们一起回顾一下各种终端下唯一的设备标识的变迁历史。一IOS的变迁和对行业影响 下面是IOS端可获取的标识,随着人们对数据隐私的重视和《一般数据保护法案》(General Data Protection Regulation (GDPR)实施,各种标识也在不断被被禁用,直到去年上市发布的ios1...原创 2021-02-09 16:21:37 · 1333 阅读 · 2 评论 -
Cookie、sessionStorage和localStorage
一 HTML4的本地存储cookiecookie和session都是用来跟踪浏览器用户身份的会话方式。我们通过了解两者的区别来了解cookie:1、保持状态:cookie保存在浏览器端,session保存在服务器端2,使用方式:Cookie是服务器发给客户端的特殊信息,cookie是以文本的方式保存在客户端,每次请求时都带上它。服务器收到请求需要创建session对象时,首先会检查客户端请求中是否包含sessionid。如果有sessionid,服务器将根据该id返回对应session对象。如果原创 2021-02-09 16:19:56 · 325 阅读 · 0 评论 -
Flink Transformation 操作
前面我们介绍了Flink DataStream数据处理流程中的source和sink,这篇文章我们介绍一下 Flink的Transformation 的操作,一般常用的算子有下面几种,我们分别用代码来演示下他基本用法:Map操作val stream = env.generateSequence(1, 5)//简单的map操作//val streamMap = stream.map(item => item * 3)//复杂的map操作val streamMap = stre...原创 2020-07-04 15:43:48 · 591 阅读 · 0 评论 -
Flink API入门
Flink数据处理流程 通过前面的文章我们大概了解了实时流处理框架,这篇文章开始我们将详细来学习下Flink的使用。Flink为开发流式/批处理应用程序提供了不同级别的抽象。而这几个抽象的模块中DataStream API用于处理实时流处理,DataSetAPI用于离线批处理。入门Flink API 后面我们都选择使用Scala来完成Flink程序的编写,当然你也可以选择Java或者Python。Scala DataSet API的所有核心类都在包org...原创 2020-07-04 15:32:21 · 538 阅读 · 2 评论 -
Elasticsearch基础实践
Elasticsearch是高度可伸缩的开源全文搜索和分析引擎。它允许我们快速实时地存储、搜索、分析大数据。Elasticsearch是一个接近实时的搜索平台,对大数据量的处理我们通过搭建ES集群来完成。1,集群的几个概念:主节点 服务器只作为一个主节点,但不存储任何索引数据,主节点负责创建索引、删除索引、分配分片、追踪集群中的节点状态等工作。一个节点启动后,就会使用Zen Dis...原创 2019-07-08 20:56:31 · 439 阅读 · 0 评论 -
Flink实时统计入MySQL
先上代码片段import java.sql.Typesimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.flink.api.java.io.jdbc.JDBCOutputFormatimport org.apache.flink.api.scala._import org.apache...原创 2020-01-14 19:25:11 · 3530 阅读 · 0 评论 -
搭建MongoDB集群
集群由以下3个服务组成:Shards Server: 每个shard由一个或多个mongod进程组成,用于存储数据 Config Server: 用于存储集群的Metadata信息,包括每个Shard的信息和chunks信息 Route Server: 用于提供路由服务,由Client连接,使整个Cluster看起来像单个DB服务器 另外,Chunks是指MongoDB中一段连续的数据原创 2011-10-22 20:52:51 · 6444 阅读 · 1 评论 -
HIVE UDAF和UDTF实现group by后获取top值
先自定义一个UDAF,由于udaf是多输入一条输出的聚合,所以结果拼成字符串输出,代码如下:public class Top4GroupBy extends UDAF { //定义一个对象用于存储数据 public static class State { private Map counts; private int limit;原创 2012-07-26 14:52:57 · 4958 阅读 · 0 评论 -
Spark Rdd DataFrame操作汇总
直接上测试代码:import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions.{udf, _}import org.junit.{Assert, Test}import org.apache.spark.sql.types._...原创 2019-05-04 12:06:22 · 1427 阅读 · 0 评论 -
Mongodb副本集和分片
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。而且mongodb也有索引,视图功能, MongoDB 4.0 引入的事务功能,支持多文档ACID特性,总之,MongoDB是一个基于分布式文件存储的数据库。那么作为分布式数据库,他应该具...原创 2019-08-20 21:33:02 · 1911 阅读 · 0 评论