
数仓
文章平均质量分 64
吗达拉
这个作者很懒,什么都没留下…
展开
-
5.sparkstreaming去kafka中消费Mysql实时操作的数据
1前面Mysql开启了Bin_log,canal实时的去监听然后发送到kafka的example中,现在用Spark-streaming实时的去消费将这些信息打印出来pom依赖:<dependency> <groupId>org.apache.kafka</groupId> <artifactId>...原创 2019-04-23 16:13:56 · 1144 阅读 · 1 评论 -
4.canal实时监控Mysql并推送到kafka中
在前面我们已经开启了Mysql的bin_log功能,安装了canal,成功实时监控了mysql,接下来,我们将mysql中做的操作实时推送到kafka指定的topic中1关闭canal,写配置文件vim …/canal/canal.properties 添加如下内容将servermode更改为kafka,以前是tcp此时前面在客户端上的canal链接会失败vim /canal/conf/...原创 2019-04-22 17:39:24 · 1728 阅读 · 4 评论 -
3.安装canal解析mysql的bin-log
1.下载canal安装包:地址:https://github.com/alibaba/canal/releases2解压到相应目录,修改配置文件信息vim conf/example/instance.properties在mysql中创建相应的用户,并赋予权限CREATE USER canal IDENTIFIED BY 'canal'; GRANT SELECT, REPLICA...原创 2019-04-19 17:35:29 · 256 阅读 · 0 评论 -
2.mysql的Bin-log恢复数据
1在mysql中创建一张表create table test(id int);select * from test;插入了两条数据1,2mysqlbinlog --no-defaults mysql-bin.000003 > /root/1.txtcat /root/1.txt从11952开始,做了对1,2两条数据的插入,现在我们恢复回去mysqlbinlog --no-...原创 2019-04-19 14:13:29 · 133 阅读 · 0 评论 -
1.Mysql的Log_bin
Mysql的二进制日志,可以说是mysql最重要的日志。它会将所有的DDL和DML(除了数据查询语句)以事件形式记录,还会记录语句消耗的时间,是事物安全型的。一般来说开启bin_log会有百分之1的性能损耗它有三个使用场景1:Mysql Replication在master端开启binlog,master把它的二进制日志传递给slaves来达到master-slave数据一致的目的2:数据恢...原创 2019-04-19 11:41:16 · 284 阅读 · 0 评论 -
Mysql的3F,分库分表,索引,慢查询以及调优
1数据库设计的3F 三范式①原子性:每列不可再分id name address1 刘涛 浙江省杭州市余杭区name不再分,在国民健康电商项目中,address要分,区分省,市,区/县某些字段要不要再分,取决于业务②唯一性:例如主键id order_no(唯一) createtime1 GM1234 2018-04-06 在项目订单表中,不以...原创 2019-04-12 16:17:53 · 586 阅读 · 0 评论 -
如何给centos增大磁盘空间
1,虚拟机扩展硬盘容量2,fdisk -l 发现只有一个盘 /dev/sda 分成了两个区 sda1,sda23,fdisk /dev/sda依次输入m 回车n 回车(新建分区)p 回车 (输入分区编号 3 ,前面有1,2了)一直回车然后W 保存并推出4,reboot重启5,格式化sda3,mkfs.xfs /dev/sda36设置开机自动挂载[root@hdp01 /]#...原创 2019-05-28 10:47:12 · 1113 阅读 · 0 评论 -
移动虚拟机配置新的ip
1 虚拟机右键设置,移除网络适配器2 添加网络适配器,高级,生成3 打开虚拟机4 rm -rf /etc/udev/rules.d/70-persistent-net.rules5 配置网卡vim /etc/sysconfig/network-scripts/ifcfg-ethoDEVICE=eth0TYPE=EthernetONBOOT=yesNM_CONTROLLED=yes...原创 2019-04-09 12:09:42 · 319 阅读 · 0 评论 -
Flum_C:跨服务器实时采集日志
A服务器上:Agent: exec source + memory channel + avro sinkB服务器上 : Agent: avro source + memory channel + kafka sink我们就在自己的服务器上传输 不影响A服务器上的配置文件:exec-memory-avro.sources = exec-sourceexec-memory-avro...原创 2019-06-28 17:27:54 · 304 阅读 · 0 评论 -
Flume-B:监控文件实时采集新增的数据到hdfs上去
方式二:监控文件实时采集新增的数据到控制台Agent: exec source + memory channel +logger sink# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r...原创 2019-06-28 16:20:08 · 662 阅读 · 0 评论 -
Flume-A:从网络端口采集数据输出到控制台
1概述了解一个框架就去它的官网上看 http://flume.apache.org/Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and f...原创 2019-06-28 15:33:59 · 430 阅读 · 0 评论 -
数据迁移的异常
1 Incorrect string value: ‘\xF0\x9F\x92\x83’ for column ‘nickname’ at row 12出现原因:当insert数据中有表情时发生。而这些表情是按照4个字节一个单位进行编码的,而我们使用的utf-8编码在mysql数据库中默认是按照3个字节一个单位进行编码的.改成utf8mb4最好是在app注册时的昵称不要有非法字符...原创 2019-04-24 15:33:06 · 407 阅读 · 0 评论 -
Sqoop抽数到Hive表异常分析
Question1使用Sqoop抽取MySQL数据到Hive表时,抽取语句正常执行但数据没有写入Hive的表中,执行的Sqoop抽数脚本如下export HADOOP_USER_NAME=hivesqoop import \--connect "jdbc:mysql://cm-server:3306/cm" \--username cm \--password password \-...原创 2018-11-27 09:30:43 · 748 阅读 · 0 评论 -
Sqoop(进阶)
Sqoop支持两种方式的全量数据导入和增量数据导入,同时可以指定数据是否以并发形式导入全量数据导入全量数据导入就是一次性将所有需要导入的数据,从关系型数据库一次性地导入到Hadoop中(可以是HDFS、Hive等)。全量导入形式使用场景为一次性离线分析场景。用sqoop import命令,sqoop import \ --connect jdbc:mysql://192.168.xxx.x...原创 2018-11-26 17:38:59 · 190 阅读 · 0 评论 -
postgresql列转行
一张票可以检景点好几个例如 票A 可检票景点(1111,2222,3333)根据景点的维度来统计:check_park_codes 1111,2222,3333select unnest(string_to_array(check_park_codes ,’,’)) from table A;得到结果:...原创 2019-12-04 17:14:07 · 4588 阅读 · 0 评论 -
数据安全体系概述
从定位来说,大数据的安全主要包括以下3个方面:1,数据访问安全:①服务认证:保证各个角色之间的合法性,可以有效防止身份伪装。服务之间的安全管理②授权管理:管理人操作的权限。人和服务的安全管理2,数据脱敏安全:针对数据内容的安全方案。他需要一个规范来定义数据的敏感级别和访问控制3,数据审计安全:数据审计是值系统提供数据访问审计日志,支持数据血缘关系追踪,追踪数据的流向和衍生变化过程从...原创 2019-07-17 15:31:48 · 4409 阅读 · 0 评论 -
数据仓库的元数据
1什么是元数据数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典,保存了逻辑结构、文件、地址和索引等信息。广义上说:元数据描述了数据仓库内数据的结构和建立方法的数据①构建数仓的主要步骤之一是ETL,元数据定义源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史纪录以及装载周期等相关内容。②用户在使用数仓时,通过元数据访问...原创 2019-04-29 15:33:45 · 1115 阅读 · 0 评论 -
维度建模的缓慢变化维
1维度建模的数仓中,有一个概念SCD:slowly channing dimensions.缓慢变化维。因为在现实世界中,维度的属性并不是静态的,它会随着时间的流失而发生缓慢的变化,这种随时间发生变化的维度我们称之为缓慢变化维。如何处理缓慢变化维的影响,举个例子以用户的地理信息来举例第一种方法:直接在原来维度的基础上进行更新,不会产生新的纪录更新前id account_no na...原创 2019-04-29 15:58:15 · 627 阅读 · 0 评论 -
数据矩阵的设计
001,业务数据矩阵业务数据矩阵,我们可以认为它的作用是从全局的角度来对公司的数据进行规划和设计。在数据仓库的设计初期,数据仓库架构师会根据对业务和数据的理解来设计一个全局的业务数据矩阵,以此从宏观的角度来描述公司的业务和数据现状,并指导后续的数据仓库建模如下表,是业务数据矩阵的表示方法,其中每一列是一个业务主题,每一行是一个数据主题。1,业务主题:我们可以将一个业务主题理解为公司的一条业务...原创 2019-06-12 14:17:11 · 3150 阅读 · 0 评论 -
了解公司的数据
001,数据核心维度分布数据核心维度分布主要是指数据中那些比较重要的列的内容分布,比如说用户最基本的年龄,性别和城市信息。这是最常用的数据分布。再引申一点会涉及一些业务内容,比如说各省份的人的订单情况,不同时间段男女活跃信息对比等等,一般分为三个部分:1,基础资料2,业务行为3,用户画像002,数据口径1,假设性别字段在表A中的取值是0、1、2(未知、男、女),在表B中取值是0、1、2...原创 2019-06-12 14:28:49 · 240 阅读 · 0 评论 -
如何设计执行表命名规范
数据仓库的实施和落地需要团队中不同成员的参与和配合,因此也需要各种各样的规范,其中最典型的就是表命名规范。规范的表命名能让使用者轻而易举的明白该表的作用和含义以流程图的方式来展示,更加直观和易懂,本图侧重dwm层表的命名规范,其余命名是类似的道理表命名,其实在很大程度上是对元数据描述的一种体现,表命名规范越完善,我们能从表名获取到的信息就越多。以上图为例,我们单纯从表中就能获得如下信息:分...原创 2019-06-12 14:53:16 · 677 阅读 · 0 评论 -
数仓分层
000概述数仓分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更容易理解和使用本文的大纲001,介绍数据分层的作用002,分层设计的原则以及介绍一种通用的数据分层设计003,具体案例004,落地实践意见005,思考001,数据分层的作用我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是数据分层。数据分层的好处有①,清晰数据结构:每一...原创 2019-06-13 11:21:08 · 30175 阅读 · 2 评论 -
构建数仓的一些基本原则
1,高内聚和低耦合一个逻辑或者物理模型由哪些记录和字段组成,应该遵循最基本的软件设计方法的高内聚和低耦合原则。主要从数据业务特性和访问特性两个角度来考虑:将业务相近或者相关、粒度相同的数据设计为一个逻辑或者物理模型;将高概率同时访问的数据放一起,将低概率同时访问的数据分开储存2,核心模型与扩展模型分离建立核心模型与扩展模型体系,核心模型包括的字段支持常用的核心业务,扩展模型包括的字段支持个性...原创 2019-06-13 11:30:49 · 1718 阅读 · 0 评论 -
常用的模型实施过程
1,Kimball模型实施过程Kimball维度建模主要探讨需求分析、高层模型、详细模型和模型审查整个过程构建维度模型一般要经历三个阶段:①高层模型定义业务过程维度模型的范围,提供每种星型模式的技术和功能描述。直接产出目标是创建高层维度模型图,它是对业务过程中的维表和事实表的图形描述。确定维表创建初始属性列表,为每个事实表创建提议度量②详细模型详细的维度建模过程是为高层模型填补缺失的信...原创 2019-06-13 11:49:16 · 506 阅读 · 0 评论 -
数据质量监控
本文链接:术东居士,https://blog.youkuaiyun.com/zhaodedong/article/details/89322066000 数据质量数据质量的保证,是数仓的重中之重。数据质量主要从四个方面进行评估,即,完整性,准确性,一致性和及时性通过本文,你将获得如下几方面的知识点:1,数据质量核心关注的要点2,从数据计算链条理解,每一个环节会出现哪些数据质量问题3,从业务逻辑理解...原创 2019-06-12 13:49:16 · 4375 阅读 · 0 评论 -
帆软制作一个驾驶舱
公司用帆软制作报表软件,熟悉了一下,按照案例,做了一个驾驶舱1,demo如下图2,要求和这个做的差不多,自己做的如下图总结:在使用的途中遇见了一些错误,总结一下1,制作决策报表,首先要布局好,将绝对画布块拉进来,确定控件的位置、大小来实现布局2,将报表块拉取到绝对画布块中,在报表块中进行操作3,数据集可以来自不同的数据源4,设置整个决策表的背景颜色,点击标准后的三个点5,使用...原创 2019-07-11 17:17:46 · 4044 阅读 · 0 评论 -
sqoop命令大全
Sqoop是一个用来将Hadoop(hdfs/hive/hbase)和关系型数据库(如MySQL,Oracle,SQL SERVER,Postgres等)中的数据相互转移的工具,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。官网说明:http://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.ht...原创 2019-07-11 17:27:49 · 1160 阅读 · 0 评论 -
什么是p99
p99表示过去10s内最慢的1%请求的平均延迟原创 2019-07-19 16:53:18 · 3430 阅读 · 0 评论