
大数据
库伯
这个作者很懒,什么都没留下…
展开
-
Flink消费binlog消息丢弃过期的消息
一般通过订阅mysql的binlog 异构数据到别的存储,如ES。 大概的流程为通过databus或者canal 这样的组件订阅binlog,发送kafka队列,通过flink消费kafka。因为我们这边业务比较特殊,导致mysql数据的变更有尖刺的情况,在业务高峰期数据变更的QPM为60W/分钟,flink最大的消费能力为20W/分钟,在这种消费速度和生产速度不对等的情况,ES的数据有会10分钟以上的延时。 因此需要提升flink的的并发数,但是当flink的并发数大于kafka p...原创 2021-01-04 15:24:29 · 698 阅读 · 0 评论 -
hive row_number 去重 取第一条
假如根据id去重,取第一条数据,对应当前hive 语句为:select t.id, t.name, t.time_c from ( select id, name, time_c, row_number() over(partition by id order by time_c d...原创 2019-12-23 16:48:05 · 2056 阅读 · 0 评论 -
spark写hive按照partition overwrite
刚发现spark写hive的是用overwrite后会把整个表删了,在执行插入,导致所有的partition都被删除了。期望是能按照partition去覆盖,而不是全表覆盖。研究了一下,以下方法亲测可行:建表语句:CREATE TABLE `student_table`( `id` string, `name` string) PARTITIONED BY ( ...原创 2019-11-08 16:05:19 · 2388 阅读 · 0 评论 -
hive分区之《静态分区》和《动态分区》
先准备一个基础表studentselect * from student;id name age sex-----------------------------1 zhangsan 19 boy2 lisi 18 girl3 wangwu 17 boy4 lucy ...原创 2019-09-10 21:57:19 · 384 阅读 · 0 评论 -
hive 常用语句
显示所有的databaseshow databases;使用某个databaseuse data_base_name_xxxx;显示所有的表show tables;创建表CREATE TABLE `student_2`( `id` int, `name` string)ROW FORMAT DELIMITED FIELDS TERMINATED...原创 2019-09-05 22:00:48 · 194 阅读 · 0 评论 -
hive 导入数据的几种方式
insert单条数据,需要hive版本在0.14以上(效率很低,不常用)insert into table student_1 values(2,'zhangsan');从本地文件导入到hiveload data local inpath "/root/xxx.txt" into table student; 从hdfs文件系统导入到hive表(会移动文件到hive默认hdf...原创 2019-09-05 21:54:15 · 349 阅读 · 0 评论 -
hive内部表和外部表
内部表创建方法:create table student( id int, name string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ',';使用desc formatted student; 查看表的描述信息,Table Type =MANAGED_TABLE ,说明该表为内部表在准备hdfs的/opt/tes...原创 2019-09-04 00:48:39 · 300 阅读 · 0 评论 -
hive的metadata、metastore 、hiveserver2、beeline 之间的关系
先解释一下几个名词:metadata :hive元数据,即hive定义的表名,字段名,类型,分区,用户这些数据。一般存储关系型书库mysql中,在测试阶段也可以用hive内置Derby数据库。metastore :hivestore服务端。主要提供将DDL,DML等语句转换为MapReduce,提交到hdfs中。hiveserver2:hive服务端。提供hive服务。客户端可以通过b...原创 2019-09-01 22:49:07 · 3337 阅读 · 1 评论 -
hive 单节点安装
准备工作:1.配置好JAVA_HOME2.安装好hdfs和mapreduce,请参考:hadoop hdfs mapreduce yarn 单节点安装3.准备好mysql,并新建hive库。4.下载hive安装包,本次使用hive 1.2.1版本:http://archive.apache.org/dist/hive/hive-1.2.1/apache-hive-1.2.1-bin...原创 2019-09-01 21:33:24 · 441 阅读 · 0 评论 -
hadoop hdfs mapreduce yarn 单节点安装
为了学习和测试,可以将hadoop的所有功能都安装到一台机器。1.配置JAVA_HOME,因为hadoop运行依赖java环境2.下载hadoop包2.6.5版本,下载地址:http://archive.apache.org/dist/hadoop/core/hadoop-2.6.5/hadoop-2.6.5.tar.gz3.解压安装包后,修改安装包路径/etc/hadoop目录...原创 2019-09-01 19:47:48 · 303 阅读 · 0 评论