
Spark-ClickHouse-ES实时项目
Spark-ClickHouse-ES实时项目
SmallScorpion
Look at the world with reptiles and write code for the rest of your life;
Illuminate the stars with data and conquer the sea with technology
展开
-
Spark-ClickHouse-ES实时项目第十四天-需求分析
代码位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git需求按地区(用户性别、用户年龄段)统计当日新增付费用户首单平均消费架构在实时数仓中,通过将维表数据放入HBASE中达到查询以前用户状态(是否为首单),且通过其他为表数据可以得到需求的最终结果数据(用户性别、用户年龄段…)HBase 建表crea原创 2020-09-22 15:53:21 · 315 阅读 · 1 评论 -
Spark-ClickHouse-ES实时项目第十三天-提取每日业务数据进行分流处理
代码位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git编写KafkaUtil增加发送数据到Kafka/** * 将数据发送到Kafka中 */ var kafkaProducer: KafkaProducer[String, String] = null def createKafk原创 2020-09-21 15:08:47 · 464 阅读 · 0 评论 -
Spark-ClickHouse-ES实时项目第十二天-MDB数据由canal检测到kafka
资源链接https://download.youkuaiyun.com/download/qq_40180229/12873694开启MySQL中得bin-logvim /etc/my.cnf检查是否开启生成数据执行java -jar gmall-db…jar检查bin-log是否发生改变cd /var/lib/mysql给canal分配权限GRANT SELECT, replication SLAVE, replication client on . TO canal@’%’ identi原创 2020-09-21 11:39:43 · 278 阅读 · 0 评论 -
Spark-ClickHouse-ES实时项目第十一天-发布数据接口-分时数
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git访问路径数据格式service @Override public Map getDauHour(String date) { // es index String indexName = "gmall_c原创 2020-09-17 19:48:50 · 254 阅读 · 0 评论 -
Spark-ClickHouse-ES实时项目第十一天-发布数据接口-总数
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git访问路径数据格式新建spring模块pom<dependencies> <dependency> <groupId>org.springframework.boot<原创 2020-09-17 17:20:57 · 240 阅读 · 0 评论 -
Spark-ClickHouse-ES实时项目第十天-Kibana可视化配置
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git创建index patteen确定数据范围选择查看数据的过滤字段创建成功配置单图选择柱状图选择数据源按照渠道进行统计日活数据刷新时间保存多图组合添加保存“发布”sharecopy写个简单的htm原创 2020-09-17 15:37:30 · 1753 阅读 · 1 评论 -
Spark-ClickHouse-ES实时项目第九天-精确一次性消费幂等性
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git让ES保存做PUT操作,增加ID /** * 批量保存 */ def bulkDoc( sourceList: List[(String, Any)], indexName: String ): Unit = { if ( so原创 2020-09-17 11:59:20 · 721 阅读 · 1 评论 -
Spark-ClickHouse-ES实时项目第八天-精确一次性消费保存偏移量
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git手动提交偏移量第一次读取会加载Redis数据,若是redis中没有数据那么将消费kafka起始数据,经过业务计算保存到redis中中间循环过程是业务到redis保存数据的过程若中途宕机,重启进程服务都会读取redis偏移量位置进行消费Offs原创 2020-09-17 11:40:44 · 338 阅读 · 0 评论 -
Spark-ClickHouse-ES实时项目第七天-精确一次性消费读取偏移量
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git手动提交偏移量第一次读取会加载Redis数据,若是redis中没有数据那么将消费kafka起始数据,经过业务计算保存到redis中中间循环过程是业务到redis保存数据的过程若中途宕机,重启进程服务都会读取redis偏移量位置进行消费Offs原创 2020-09-16 10:05:25 · 290 阅读 · 1 评论 -
Spark-ClickHouse-ES实时项目第六天-es的批量保存
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git分析做日活,取启动日志“GMALL_SPARK_CK_ES_START”中的数据(事件日志也可以做,但是会麻烦一点)消费kafka中的数据。利用redis过滤当日已经计入的日活设备把每批次新增的当日日活信息保存到ES中(也可以做一层聚合数据量变小原创 2020-09-15 18:29:33 · 575 阅读 · 0 评论 -
Spark-ClickHouse-ES实时项目第五天-redis去重
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git需求分析做日活,取启动日志“GMALL_SPARK_CK_ES_START”中的数据(事件日志也可以做,但是会麻烦一点)消费kafka中的数据。利用redis过滤当日已经计入的日活设备把每批次新增的当日日活信息保存到ES中(也可以做一层聚合数原创 2020-09-15 17:28:16 · 596 阅读 · 0 评论 -
Spark-ClickHouse-ES实时项目第四天-消费Kafka数据
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git需求分析做日活,取启动日志“GMALL_SPARK_CK_ES_START”中的数据(事件日志也可以做,但是会麻烦一点)消费kafka中的数据。利用redis过滤当日已经计入的日活设备把每批次新增的当日日活信息保存到ES中(也可以做一层聚合数原创 2020-09-11 11:23:47 · 635 阅读 · 1 评论 -
Spark-ClickHouse-ES实时项目第三天-ES工具类编写测试
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ck-es-realtime.gitElasticSearch和Kibana安装https://blog.youkuaiyun.com/qq_40180229/article/details/106012997新建模块导入依赖<dependency> <groupId&g原创 2020-09-09 18:09:37 · 458 阅读 · 0 评论 -
Spark-ClickHouse-ES实时项目第二天上-Nginx安装
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ck-es-realtime.git安装Nginx安装依赖> sudo yum -y install openssl openssl-devel pcre pcre-devel zlib zlib-devel gcc gcc-c++解压配置解压缩ngin原创 2020-09-08 15:56:28 · 264 阅读 · 0 评论 -
Spark-ClickHouse-ES实时项目第一天下-数据发送Kafka并部署在Linux中
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ck-es-realtime.git添加依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson<原创 2020-09-07 21:56:17 · 428 阅读 · 0 评论 -
Spark-ClickHouse-ES实时项目第一天中-日志服务器
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ck-es-realtime.git编写logback.xml<?xml version="1.0" encoding="UTF-8"?><configuration> <property name="LOG_HOME" value="d:/appl原创 2020-09-07 20:39:05 · 329 阅读 · 0 评论 -
Spark-ClickHouse-ES实时项目第一天上-模拟日志生成
仓库位置日志生成:https://github.com/SmallScorpion/gmall-mock.git日志服务器:https://github.com/SmallScorpion/gmall-spark-ck-es-realtime.git上传修改日期vim application.properties :执行在当前目录下执行:java -jar gmall-mock-log-1.0-SNAPSHOT.jar目前为http发送模式,还没有建立,正常报错报错日志创建新原创 2020-09-07 19:46:57 · 392 阅读 · 1 评论