- 博客(20)
- 资源 (9)
- 收藏
- 关注
原创 用Mysql创建时间维度表
case dayofweek(start_date) when 1 then '星期日' when 2 then '星期一' when 3 then '星期二' when 4 then '星期三' when 5 then '星期四' when 6 then '星期五' when 7 then '星期六' end as week_cn,DATE_FORMAT(start_date,'%Y年第%u周') week_of_year_long_start_Friday,
2024-11-26 09:04:23
876
2
原创 什么是数据倾斜,怎么解决数据倾斜?
相信很多接触MapReduce的朋友对‘数据倾斜’这四个字并不陌生,那么究竟什么是数据倾斜?又改怎样解决这种该死的情况呢?何为数据倾斜?在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念:正常的数据分布理论上都是倾斜的,就是我们所说的2-8原理:80%的财富集中在20%的人手中,80%的用户只使用20%的功能,20%的用户贡献了80%的访问量,不同的数据字段的数据倾斜一般有两种情况:一种是唯一值非常少,极少数值有非常多大记录值;一种是唯一值比较多,这个字段的某些值有远远多于.
2020-08-25 18:08:43
2087
原创 手工导入EXCEL文件到ORACLE数据库
1. 数据源city.xlsx2. 另存为city.csv3. 创建表结构 CREATE TABLE ODS.ODS_DIM_CITY ( CITY_CODE VARCHAR2(200 BYTE) NOT NULL ENABLE, CITY_NAME VARCHAR2(200 BYTE), CITY_LEVEL_CODE VARCHAR2(200 BYTE), CITY_LEVEL VARCHAR2(100 BYTE), CITY_CLASSIFY_CODE VA
2020-08-13 09:54:44
353
原创 Oracle查找没有提交事务的SQL
--查找没有commit的事务select s.sid,s.serial#,'kill -9 ' || p.SPID, 'alter system disconnect session '''||s.sid||','||s.serial#||''' immediate;', s.status, s.LOGON_TIME,s.machine, t.start_time, a.SQL_ID, a.SQL_TEXT, a.SQL_FULLTEXT, b.SQL_ID pre_sql_te..
2020-08-10 06:46:10
1757
原创 Kafka为什么会那么快?
Kafka的消息是保存或缓存在磁盘上的,一般认为在磁盘上读写数据是会降低性能的,因为寻址会比较消耗时间,但实际上,Kafka的特性之一就是高吞吐率。下面从数据写入和读取两方面分析,为什么Kafka速度会这么快。数据写入Kafka会把收到的消息都写入到硬盘中,它绝对不会丢失数据。为了优化写入速度,Kafka采用了两个技术,顺序写入和MMFile(Memory Mapped File)顺序写入...
2020-07-29 19:29:38
701
原创 RDD宽依赖和窄依赖理解
1)RDD概念:Resilient Distributed Datasets 弹性分布式数据集,是一个容错的、并行的数据结构,可以让用户显示的将数据存储到磁盘和内存中,并且能控制数据分区。同时,RDD还提供了一组丰富的操作来操作这些数据。RDD是只读的记录分区集合,只能通过在其他RDD执行确定的转换操作(transformation)而创建。RDD可看作一个spark对象,他本身存在于内存中,如对文件计算是一个RDD。一个RDD可以包含多个分区,每个分区就是一个dataset片段。RDD可以相互依赖。如
2020-07-25 08:41:32
1800
原创 创建时间维度表之Oracle篇
1, 创建表结构create table TIME_DIMENSION( the_date NUMBER not null, date_name NVARCHAR2(15), the_year NUMBER, year_name NVARCHAR2(10), the_quarter VARCHAR2(10), quarter_name NVARCHAR2(10), the_month NUMBER, month_name NVA
2020-06-30 16:04:10
465
原创 Oracle下使用触发器实现主键ID自增加
1. 建立测试表create table book(bookID varchar2(10) primary key,bookName varchar2(20));2. 创建序列create sequence book_seq start with 1 increment by 1;3. 创建触发器create or replace trigger bookID_auto_triggerbefore insert on book for each rowbegins
2020-06-03 10:23:00
261
原创 缓慢渐变维度
在维度建模的数据仓库中,有一个著名概念叫 Slowly Changing Dimensions,中文一般翻译成“缓慢变化维”,经常被简写成 SCD。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化。这种随时间发生变化的维度一般称为缓慢变化维。处理缓慢变化维的方法通常分为3中:第一种方式是直接覆盖原值。这种处理最容易实现,但是没有保留历史数据,无法分析历史变化信息。第二种方式是添加维度行。这种处理需要代理键的支持。实现方式是当有维度属性...
2020-06-03 09:57:43
705
1
原创 Kerberos 高可用部署
目前Kerberos服务器的高可用主要是通过主备模式实现,数据同步是通过kprop服务,定时将主节点上的数据同步到从节点上。# kadmin.localAuthenticating as principal root/admin@wzadmin01.xxxx.com with password.kadmin.local:kadmin.local: addprinc -randkey h...
2020-04-20 11:02:34
537
原创 Hive中创建映射Hbase表
######To create hive table mapping hbase table###create external table hbase_test_mysql_general(rowkey string,id bigint,current_d string,current_t string,current_dt string,current_z string,id1...
2020-03-02 11:22:11
193
原创 Maxwell 配置kerberos信息
在config.property文件中加入下面配置:#####config.property###############kafka.security.protocol=SASL_PLAINTEXTkafka.sasl.kerberos.service.name=kafkakafka.sasl.mechanism=GSSAPIsecrity.inter.broker.protocol...
2020-03-02 11:16:36
246
原创 手动迁移JournalNode
1.首先我们停止HDFS服务。2.把要迁移的节点/data/jn下的数据复制到新的节点上(scp /data/jn 10.xx.xx.11:/data/ 注意目录用户属组和权限必须保持正确)3.回到HDFS服务的“实例”页面,添加JN角色给新的节点;把旧的jn节点删除4.重启HDFS服务5.进入HDFS服务页面,点击“操作”->“滚动编辑”,该步骤主要是为了强制同步3个Jo...
2020-01-30 16:15:09
667
原创 sqoop导入hive表时,去除列中的tab键回车键等
sqoop import --connect jdbc:oracle:thin:@10.100.100.1:1521/orcl --username oracle --passowrd oracle --query "select * from oracle.sample where \$CONDITIONS and start_date < to_date('1999-10-31','yy...
2020-01-21 10:26:20
827
原创 Hive中实现数据增量累加主键覆盖的sql
insert overwrite table full_data_table selectddd.data_colfrom( select aa.data_col from full_data_table aaleft join( select b.pk_col as pk_id from full_data_table a left join inc_data_tabl...
2019-12-12 09:16:09
962
原创 Maxwell 同步blob字段到kafka
Maxwell在同步mysql blob到kafka时候,会用Base64进行加密。也就是说在kafka拿到数据时,blob字段的内容和源库中的数据是不一样的。Maxwell会对blob字段进行Base64加密。所以我们需要在入到存储上的时候进行base64的decode。具体方法如下:importjava.util.Base64public void base64() throw...
2019-12-10 14:44:42
382
原创 Installing the Teradata Connector with CDH5
1. Install the Sqoop connector by opening the distribution archive in a convenient location such as /usr/lib. Opening the distribution creates a directory that contains the jar file of the compiled...
2019-12-10 11:33:05
153
原创 如何使用sqoop导入avro file到hive中
1,使用sqoop命令,--as-avrodatafile参数从mysql,表t_movie导入hdfs,编辑命令[root@cdh-demo ~]# cat import_avro.txtimport--connectjdbc:mysql://cdh-demo:3306/mytest--usernamekobezhu--passwordkobezhu--tablet_mo...
2019-11-09 10:26:42
714
原创 Kerberos 命令使用
认证登录kinit admin/admin@EXAMPLE.COMPassword for admin/admin@EXAMPLE.COM: 123456查询登录klistTicket cache: FILE:/tmp/krb5cc_0Default principal: admin/admin@EXAMPLE.COMValid starting ...
2019-11-01 11:28:08
1387
redhat 64位asmlib安装包 2.6.18-274.el5
2013-02-17
redhat asmlib 64bit安装包for内核2.6.18-274.el5
2013-02-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人