大数据_壬戌知秋的博客-优快云博客

大数据

文章平均质量分 65

总结公司实际项目中遇到的问题！

文章数：33 文章阅读量：34625 文章收藏量：34

作者: 壬戌知秋

这个作者很懒，什么都没留下…

展开

专栏收录文章

clickhouse中的窗口函数

clickhouse中窗口函数

原创 2025-04-14 16:56:24 · 306 阅读 · 0 评论
clickhosue中json字符串转为表

clickhouse中将json字符串转为表

原创 2025-04-14 16:53:43 · 170 阅读 · 0 评论
clickhouse中常用的几个函数

clickhouse统计常用的函数

原创 2025-04-14 16:51:04 · 159 阅读 · 0 评论
elasticsearch入门三(对标sql)

elasticsearch 中结构化查询对应sql语句，个人理解！！

原创 2023-02-09 13:58:29 · 198 阅读 · 0 评论
rabbitmq入门 java代码

rabbitmq 入门级别代码

原创 2023-02-09 14:01:13 · 268 阅读 · 0 评论
clickhouse集群安装

clickhouse 集群安装 3个节点

原创 2023-02-09 13:54:31 · 508 阅读 · 0 评论
MySQL两张表关联查询编码问题

关联表查询编码问题

原创 2023-02-09 13:33:10 · 350 阅读 · 0 评论
clickhouse求玩家前n笔充值

clickhouse窗口函数使用之求玩家前n笔充值

原创 2023-02-09 13:55:25 · 126 阅读 · 0 评论
MySQL8.0之前实现row_number以及计算玩家连续登录天数

使用MySQL 5.7版本统计玩家连续登录天数，详细介绍row_number的实现，以及如何实现统计连续登录玩家，小白也能看懂的！

原创 2023-02-09 11:01:05 · 665 阅读 · 0 评论
Clickhouse中bitmap介绍以及计算留存Demo

参考了腾迅的大数据分析-计算留存，能够根据用户自定义属性，以及玩家行为进行留存的计算。最初计算留存的方法使用的是clickhosue自带的rentention函数，使用这个函数不用关注太多细节，只需要把留存条件放入函数即可。但是这个如果需要关联用户属性，就比较麻烦了。因此参考了bitmap实现自定义留存。这里先介绍几个bitmap相关的函数。

原创 2023-03-09 17:15:17 · 911 阅读 · 0 评论
使用SQL计算LTV

SQL计算LTV

原创 2022-08-11 13:47:15 · 1078 阅读 · 0 评论
centos7使用docker安装部署Prometheus,grafana

centos7下docker安装prometheus

原创 2022-08-10 15:27:34 · 333 阅读 · 0 评论
统计需求之求第N天流失的玩家

统计需求，n天流失玩家

原创 2022-07-06 13:58:02 · 210 阅读 · 0 评论
php使用curl查询ElasticSearch

php使用curl查询elasticsearch

原创 2020-03-11 09:53:15 · 1745 阅读 · 0 评论
elasticsearch入门二(基础查询)

es教程2

原创 2020-09-16 08:55:15 · 538 阅读 · 0 评论
Elasticsearch入门一(术语以及基本类型介绍)

es入门级简介

原创 2020-06-24 10:58:23 · 838 阅读 · 0 评论
项目背景以及游戏平台简介

项目背景介绍

原创 2022-08-02 16:38:00 · 831 阅读 · 0 评论
2.windows下安装kafka(保姆级)

windows下安装kafka

原创 2022-08-02 16:37:17 · 322 阅读 · 0 评论
游戏数据入库

游戏数据入库

原创 2022-08-02 16:36:22 · 463 阅读 · 0 评论
binlog数据清洗

binlog数据清洗

原创 2022-08-02 16:35:34 · 208 阅读 · 0 评论
DBeaver连接hbase和clickhouse

dbeaver连接大数据仓库

原创 2022-08-02 16:34:56 · 1337 阅读 · 0 评论
es登录漏斗

es分组查询

原创 2022-08-02 16:34:13 · 411 阅读 · 0 评论
留存计算方式

游戏中计算留存的方式

原创 2022-08-02 16:33:38 · 325 阅读 · 0 评论
为什么选择clickhouse?

为什么选择clickhouse存储

原创 2022-08-02 16:32:22 · 377 阅读 · 0 评论
使用docker安装ELK

环境虚拟机软件VmWare15.5 Centos7.0安装dockeryum install docker安装成功后，使用 docker --version安装ELK前提条件(真机)1.Docker至少得分配3GB的内存；2.Elasticsearch至少需要单独2G的内存；3.防火墙开放相关端口；如果配置太差了，可以指定使用的配置参数vm.max_map_count至少需要262144下载镜像首先启动dockersystemctl start docker下拉镜像d

原创 2020-06-19 17:17:53 · 17253 阅读 · 19 评论
windows下配置canal

MySQL开启binlogshow variables like '%log_bin%';如果为关闭状态，打开my.ini文件，添加如下配置[mysqld]#开启bin_log canal伪装为从库监听协议server_id=1log_bin=mysql-binlog_bin-index=master-bin.indexbinlog-format=ROW下载canalgithub比较慢，直接使用下载好的，这里使用的版本是1-4mysql5.7没有user表执行以下语句初始化表u

原创 2022-07-06 13:56:14 · 534 阅读 · 0 评论
Hbase基础shell命令

基础命令查看状态的命令 status查看版本 versionDDL查询所有表 list查询表是否存在 exists 表名创建表 create ‘表名’, ‘列簇1’,‘列簇2’删除表先禁用(disable)然后删除(drop)DML新增数据 put ‘person’,‘1’,‘base:name’,‘zhansan’put ‘person(表名)’,‘1(row_key)’,‘base(列簇名):name(字段名)’,‘zhansan(字段对应的值)’查

原创 2021-07-05 17:59:47 · 228 阅读 · 0 评论
Sqoop跨数据库神器的基本使用

Sqoop简介开源工具，主要在关系型数据库和非关系型数据库之间传递消息，可以将hadoop数据导入关系型数据库(MySQL等)，也可以把关系型数据导入到HDFS中。工作原理和hive类似也是把导入或者导出的命令翻译成M-R程序安装以及配置直接下载1.4.7解压，配置一个Home在path下指定home的bin目录，测试测试连接数据库首先拷贝jdbc连接工具到sqoop的lib目录下sqoop list-databases --connect jdbc:mysql://localhost:

原创 2020-11-30 10:08:58 · 969 阅读 · 0 评论
Hadoop2.7.3 单机版安装

安装这里下载源码并编译到 /app目录下配置Hadoop相关环境变量前提：配置了JAVA_HOME,主机名为hadoop101配置hadoop_homevim /etc/profileexport JAVA_HOME=/app/java/jdk1.8.0_131export PATH=$JAVE_HOME/bin:$PATHexport CCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/libexport HADOOP_HOME=/app/ha

原创 2020-11-30 10:07:49 · 232 阅读 · 0 评论
flume日志处理的利器入门

简介Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。flume优势

原创 2020-11-02 21:24:00 · 346 阅读 · 0 评论
Hive入门级教程

Hive是个啥东西Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。说白了就是把HQL转换成Map-Reduce程序运行。来个小小的图示说明下sql–>mapreduce的过程Hive处理的数据是存储在HDFS上的，如下图Hive分析数据底层的实现是MapReduce执行程序运行在Yarn上为啥要使用Hive对于单纯的执行Map-Reduce程序来说，需要话时间去学习，对开发要求比较高。提供类SQL语言开发，基本上学过SQ

原创 2020-11-01 15:29:28 · 1863 阅读 · 1 评论
Zookeeper限量版入门教程

简介Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。工作机制从设计模式上来说是基于发布订阅模式实现的，他负责存储和管理大家都比较关心的数据，然后接受观察者注册，一旦数据数据发生变化，zk就会通知已经在zk上注册的观察者。一句话总结: 文件系统+通知机制ps:一般是集群模式运行，因为zk系统本身也需要达到高可用，也就是我们常说的HA架构，学习阶段可以考虑安装单机版。简述工作机制图:特点zk集群模式也是一个Leader和多个Follower集群中半数以上

原创 2020-10-31 12:47:51 · 212 阅读 · 0 评论
kafka详解

介绍Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理

原创 2020-10-31 11:23:49 · 317 阅读 · 0 评论

大数据

作者: 壬戌知秋

clickhouse中的窗口函数

clickhosue中json字符串转为表

clickhouse中常用的几个函数

elasticsearch入门三(对标sql)

rabbitmq入门 java代码

clickhouse集群安装

MySQL两张表关联查询编码问题

clickhouse求玩家前n笔充值

MySQL8.0之前实现row_number以及计算玩家连续登录天数

Clickhouse中bitmap介绍以及计算留存Demo

使用SQL计算LTV

centos7使用docker安装部署Prometheus,grafana

统计需求之 求第N天流失的玩家

php使用curl查询ElasticSearch

elasticsearch入门二(基础查询)

Elasticsearch入门一(术语以及基本类型介绍)

项目背景以及游戏平台简介

2.windows下安装kafka(保姆级)

游戏数据入库

binlog数据清洗

DBeaver连接hbase和clickhouse

es登录漏斗

留存计算方式

为什么选择clickhouse?

使用docker安装ELK

windows下配置canal

Hbase基础shell命令

Sqoop跨数据库神器的基本使用

Hadoop2.7.3 单机版安装

flume日志处理的利器入门

Hive入门级教程

Zookeeper限量版入门教程

kafka详解

统计需求之求第N天流失的玩家