xie670705986-优快云博客

原创 Maxwell 和 canal 工具对比

➢ Maxwell 没有 canal 那种 server+client 模式，只有一个 server 把数据发送到消息队列或 redis。如果需要多个实例，通过指定不同配置文件启动多个进程。➢ Maxwell 有一个亮点功能，就是 canal 只能抓取最新数据，对已存在的历史数据没有办法处理。而 Maxwell 有一个 bootstrap 功能，可以直接引导出完整的历史数据用于初始化，非常好用。➢ Maxwell 不能直接支持 HA，但是它支持断点还原，即错误解决后重启继续上次点儿读取数据。 ➢

2021-04-29 20:46:35 1270

原创 Memcached和Redis区别

多线程+锁（memcached） vs 单线程+多路IO复用(Redis)（与Memcache三点不同: 支持多数据类型，支持持久化，单线程+多路IO复用）

2021-04-22 11:55:37 191

转载 java中，==equals的区别

在Java学习和面试中经常遇到这个问题，虽然想着简单，但还是决定记录下来，毕竟菜嘛…==：==是直接比较的两个对象的堆内存地址，如果相等，则说明这两个引用实际是指向同一个对象地址的。但是我们又常常碰到这样一个问题https://img-blog.youkuaiyun.com/20180920110059853?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xjc3kwMDA=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/

2021-03-05 22:21:17 162

原创 hive每日一个insert into的小文件问题

数仓项目中，每日更新一些表（比如日活表），会向表中新增一条数据。如果写成insert into xxx，新写的数据会在hdfs形成一个小文件。每日如此的话，小文件的数量会非常大。为了解决此问题，可以使用union来解决insert overwrite table xxxselect * from xxxunionselect …通过union将新的那条数据和原来老的数据合并，再overwrite，这样就会避免小文件问题。注意：union all 没有此效果。因为hive比较智能，你写un

2021-02-06 22:23:42 1318 2

原创 HIVE lzo压缩模式下 select count(*)时条数不一致

lzo压缩时有一个索引文件。当使用select * from xx 时， inputformat是使用建表时指定的DeprecatedLzoTextInputFormat，他可以识别到索引文件。而使用select count(*) from xx时，使用的inputformat是先使用combinehiveinputformat（防止MR的时候都是小文件），他会把索引文件和数据文件合并，导致之后DeprecatedLzoTextInputFormat识别不到索引文件，然后误认为索引也是一条数据，导致条数

2021-02-04 12:09:38 593

原创 hive中get_json_object的使用

hive中get_json_object是一个用来处理json数据的方法，非常好用！1）数据[{“name”:“大郎”,“sex”:“男”,“age”:“25”},{“name”:“西门庆”,“sex”:“男”,“age”:“47”}]2）取出第一个json对象hive (gmall)>select get_json_object(’[{“name”:“大郎”,“sex”:“男”,“age”:“25”},{“name”:“西门庆”,“sex”:“男”,“age”:“47”}]’,’[0]′)

2021-02-01 09:55:04 782

原创 shell种单引号，双引号，反引号的作用

（1）单引号不取变量值（2）双引号取变量值（3）反引号`，执行引号中命令，并赋值给前面的变量（4）双引号内部嵌套单引号，取出变量值（5）单引号内部嵌套双引号，不取出变量值

2021-02-01 09:01:23 467

原创 INPUTFORMAT和OUTPUTFORMAT是什么

HIVE建表语句中有时会指定inputformat和outputformat，有时又没有。其实即使我们建表时没有指定，在下一层系统也会给我们指定默认的inputformat和outputformat。那这两个究竟是什么呢？drop table if exists ods_log;CREATE EXTERNAL TABLE ods_log (line string)PARTITIONED BY (dt string) – 按照时间创建分区STORED AS – 指定存储方式，读数据采用LzoTex

2021-02-01 08:29:58 990

原创启动hive前要不要启动metastore和hiveserver2

hiveserver2：如果要通过jdbc连接hive，则需要启动hiveserver2。常见jdbc客户端：beelinemetastore：提供一个数据接口，获取hive元数据。获取获取元数据的方式：1直连mysql获取2连接metastore，通过metastore连接mysql...

2021-01-26 15:08:18 1257 2

原创关系建模与维度建模

关系模型就是遵从三范式，以往的数据库建模基本都是关系模型。维度建模主要应用于OLAP系统中，通常以某一个事实表为中心进行表的组织，主要面向业务，特征是可能存在数据的冗余，但是能方便的得到数据。关系模型虽然冗余少，但是在大规模数据，跨表分析统计查询过程中，会造成多表关联，这会大大降低执行效率。所以通常我们采用维度模型建模，把相关各种表整理成两种：事实表和维度表两种。总结来说三个优点：1便于理解 2查询方便 3便于分析...

2021-01-25 12:42:44 401

原创 OLTP与OLAP

当今的数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。二者的主要区别对比如下表所示。对比属性 | OLTP | OLAP读特性每次查询只返回少量记录对大量记录进行汇总写特性

2021-01-25 12:14:36 139

原创范式理论讲个大概

关系建模：比尔一蒙维度建模：kimbo大数据背景下更多采用的维度建模。范式理论是为了关系模型打基础，和维度建模并没有什么关系，理解为主。采用范式，主要有点是降低数据的冗余性。相同的字段和相同的值出现在多个表多个字段，这就是数据的冗余。缺点就是想要获取数据时，需要通过join进行拼接，影响性能。目前业界范式又：第一范式，第二范式，第三范式，巴斯科德范式，第四，第五，一般常用的就是第一二三范式。遵循的级别越高，冗余的就越少。...

2021-01-25 10:52:53 449

原创 Flume内存优化

1）问题描述：如果启动消费Flume抛出如下异常ERROR hdfs.HDFSEventSink: process failedjava.lang.OutOfMemoryError: GC overhead limit exceeded2）解决方案步骤：（1）在hadoop102服务器的/opt/module/flume/conf/flume-env.sh文件中增加如下配置export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun.management.jmxre

2021-01-20 16:17:59 315

原创如何确定kafka节点数量，topic数量，topic的分区数量

①kafka节点数量Kafka 机器数量（经验公式）=2*（峰值生产速度副本数/100）+1峰值速度：比如flume读取日志文件往kafka里写数据的峰值速度，得问公司上游业务团队获得副本数：topic的副本数，一般是2个（3个）先拿到峰值生产速度，再根据设定的副本数，就能预估出需要部署 Kafka 的数量。比如我们的峰值生产速度是 50M/s。副本数为 2。Kafka 机器数量=2（50*2/100）+ 1=3 台②topic数量确定1个topic就是一类数据，有多少种数据就建多少个top

2021-01-15 15:00:10 8292

原创 kafka压力测试

1）Kafka 压测用 Kafka 官方自带的脚本，对 Kafka 进行压测。Kafka 压测时，可以查看到哪个地方出现了瓶颈（CPU，内存，网络 IO）。一般都是网络 IO 达到瓶颈。kafka-consumer-perf-test.shkafka-producer-perf-test.sh2）Kafka Producer 压力测试（1）在/opt/module/kafka/bin 目录下面有这两个文件。我们来测试一下[atguigu@hadoop102 kafka]$ bin/kafka-

2021-01-15 14:44:38 235

原创 kafka常用命令

1）查看 Kafka Topic 列表[atguigu@hadoop102 kafka]$ bin/kafka-topics.sh --zookeeperhadoop102:2181/kafka --list2）创建 Kafka Topic进入到/opt/module/kafka/目录下创建日志主题[atguigu@hadoop102 kafka]$ bin/kafka-topics.sh --zookeeperhadoop102:2181,hadoop103:2181,hadoop104:21

2021-01-15 14:22:59 234

原创 hadoop读写速度测试

为了今后对集群读写文件所需时间有所估算，可以对集群读写性能进行测试1）测试HDFS写性能测试内容：向HDFS集群写10个128M的文件[atguigu@hadoop102 mapreduce]$ hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB

2021-01-13 13:25:44 1057

xie670705986的博客