
数据仓库
码上中年
目前从事于开发大数据平台开发,主要是开发特征工程工具、机器学习算法。然后将平台开发好供公安系统进行各种数据挖掘,分类,预测。
展开
-
logparser使用:解析nginx-access.log文件
1. java-maven加入依赖<dependency> <groupId>nl.basjes.parse.httpdlog</groupId> <artifactId>httpdlog-parser</artifactId> <version>5.7</version></dependency>2. 定义log日志格式2.1 理解nginx的access.log文件ngin原创 2021-04-13 23:54:45 · 1824 阅读 · 1 评论 -
canal监控mysql到Kafka(protobuf存储)
紧接上一篇:Canal实时监控mysql数据库1. canal客户端代码package com.qu.canal;import com.alibaba.fastjson.JSON;import com.alibaba.otter.canal.client.CanalConnector;import com.alibaba.otter.canal.client.CanalConnectors;import com.alibaba.otter.canal.protocol.CanalEntry;原创 2021-03-08 01:10:13 · 605 阅读 · 0 评论 -
Canal实时监控mysql数据库
1. canal原理概述*** canal将自己伪装成mysql的从节点,当mysql的binlog日志发生改变,作为从节点的canal服务端会发生dump行为,拿到日志变化的数据,然后通过canal客户端进行交互获取到变化数据,进行实时处理2. 实现条件*** mysql5以上、mysql作为主节点开启binlog日志功能2.1 修改mysql配置文件vi /etc/my.cnf [client] user=root password= port = 3306 socket = /原创 2021-03-06 12:51:17 · 2161 阅读 · 2 评论 -
实时数仓:项目学习
1. 技术选型*** 当下flink流行度又高、又稳定。成为当下实时计算最优选择2. 项目分析2.1 业务数据:一般存储在mysql(需要canal做实时采集)2.2 日志数据:一般以log文件形式存在,采用日志采集框架flume做实时采集3. 实现方案3.1 数据少于20万,可直接通过实时查询mysql,适当对关联字段做索引即可3.2 数据量比较大,mysql查询时间无法达到查询效果或者实时性太差4. 实时数仓架构...原创 2021-03-06 11:26:25 · 2331 阅读 · 6 评论 -
一文解析维度建模
数据分层“为什么要设计数据分层?” 这应该是数据仓库同学在设计数据分层时首先要被挑战的问题,类似的问题可能会有很多, 比如说“为什么要做数据仓库?”、“为什么要做元数据管理?”、“为什么要做数据质量管 理?”。当然,这里我们只聊一下为什么要做设计数据分层。 作为一名数据的规划者,我们肯定希望自己的数据能够有秩序地流转,数据的整个生命周期 能够清晰明确被设计者和使用者感知到。直观来讲就...原创 2020-01-11 15:18:59 · 652 阅读 · 0 评论