鱼干片-优快云博客

原创用Mysql创建时间维度表

case dayofweek(start_date) when 1 then '星期日' when 2 then '星期一' when 3 then '星期二' when 4 then '星期三' when 5 then '星期四' when 6 then '星期五' when 7 then '星期六' end as week_cn,DATE_FORMAT(start_date,'%Y年第%u周') week_of_year_long_start_Friday,

2024-11-26 09:04:23 968 2

原创什么是数据倾斜，怎么解决数据倾斜？

相信很多接触MapReduce的朋友对‘数据倾斜’这四个字并不陌生，那么究竟什么是数据倾斜？又改怎样解决这种该死的情况呢？何为数据倾斜？在弄清什么是数据倾斜之前，我想让大家看看数据分布的概念：正常的数据分布理论上都是倾斜的，就是我们所说的2-8原理：80%的财富集中在20%的人手中，80%的用户只使用20%的功能，20%的用户贡献了80%的访问量，不同的数据字段的数据倾斜一般有两种情况：一种是唯一值非常少，极少数值有非常多大记录值；一种是唯一值比较多，这个字段的某些值有远远多于.

2020-08-25 18:08:43 2174

原创手工导入EXCEL文件到ORACLE数据库

1. 数据源city.xlsx2. 另存为city.csv3. 创建表结构 CREATE TABLE ODS.ODS_DIM_CITY ( CITY_CODE VARCHAR2(200 BYTE) NOT NULL ENABLE, CITY_NAME VARCHAR2(200 BYTE), CITY_LEVEL_CODE VARCHAR2(200 BYTE), CITY_LEVEL VARCHAR2(100 BYTE), CITY_CLASSIFY_CODE VA

2020-08-13 09:54:44 400

原创 Oracle查找没有提交事务的SQL

--查找没有commit的事务select s.sid,s.serial#,'kill -9 ' || p.SPID, 'alter system disconnect session '''||s.sid||','||s.serial#||''' immediate;', s.status, s.LOGON_TIME,s.machine, t.start_time, a.SQL_ID, a.SQL_TEXT, a.SQL_FULLTEXT, b.SQL_ID pre_sql_te..

2020-08-10 06:46:10 1889

原创 Kafka为什么会那么快？

Kafka的消息是保存或缓存在磁盘上的，一般认为在磁盘上读写数据是会降低性能的，因为寻址会比较消耗时间，但实际上，Kafka的特性之一就是高吞吐率。下面从数据写入和读取两方面分析，为什么Kafka速度会这么快。数据写入Kafka会把收到的消息都写入到硬盘中，它绝对不会丢失数据。为了优化写入速度，Kafka采用了两个技术，顺序写入和MMFile（Memory Mapped File)顺序写入...

2020-07-29 19:29:38 739

原创 RDD宽依赖和窄依赖理解

1）RDD概念：Resilient Distributed Datasets 弹性分布式数据集，是一个容错的、并行的数据结构，可以让用户显示的将数据存储到磁盘和内存中，并且能控制数据分区。同时，RDD还提供了一组丰富的操作来操作这些数据。RDD是只读的记录分区集合，只能通过在其他RDD执行确定的转换操作(transformation)而创建。RDD可看作一个spark对象，他本身存在于内存中，如对文件计算是一个RDD。一个RDD可以包含多个分区，每个分区就是一个dataset片段。RDD可以相互依赖。如

2020-07-25 08:41:32 1846

原创创建时间维度表之Oracle篇

1，创建表结构create table TIME_DIMENSION( the_date NUMBER not null, date_name NVARCHAR2(15), the_year NUMBER, year_name NVARCHAR2(10), the_quarter VARCHAR2(10), quarter_name NVARCHAR2(10), the_month NUMBER, month_name NVA

2020-06-30 16:04:10 517

原创 Oracle下使用触发器实现主键ID自增加

1. 建立测试表create table book(bookID varchar2(10) primary key,bookName varchar2(20));2. 创建序列create sequence book_seq start with 1 increment by 1;3. 创建触发器create or replace trigger bookID_auto_triggerbefore insert on book for each rowbegins

2020-06-03 10:23:00 301

原创缓慢渐变维度

在维度建模的数据仓库中，有一个著名概念叫 Slowly Changing Dimensions，中文一般翻译成“缓慢变化维”，经常被简写成 SCD。缓慢变化维的提出是因为在现实世界中，维度的属性并不是静态的，它会随着时间的流逝发生缓慢的变化。这种随时间发生变化的维度一般称为缓慢变化维。处理缓慢变化维的方法通常分为3中：第一种方式是直接覆盖原值。这种处理最容易实现，但是没有保留历史数据，无法分析历史变化信息。第二种方式是添加维度行。这种处理需要代理键的支持。实现方式是当有维度属性...

2020-06-03 09:57:43 761 1

原创 Kerberos 高可用部署

目前Kerberos服务器的高可用主要是通过主备模式实现，数据同步是通过kprop服务，定时将主节点上的数据同步到从节点上。# kadmin.localAuthenticating as principal root/admin@wzadmin01.xxxx.com with password.kadmin.local:kadmin.local: addprinc -randkey h...

2020-04-20 11:02:34 604

原创 Hive中创建映射Hbase表

######To create hive table mapping hbase table###create external table hbase_test_mysql_general(rowkey string,id bigint,current_d string,current_t string,current_dt string,current_z string,id1...

2020-03-02 11:22:11 228

原创 Maxwell 配置kerberos信息

在config.property文件中加入下面配置：#####config.property###############kafka.security.protocol=SASL_PLAINTEXTkafka.sasl.kerberos.service.name=kafkakafka.sasl.mechanism=GSSAPIsecrity.inter.broker.protocol...

2020-03-02 11:16:36 281

原创手动迁移JournalNode

1.首先我们停止HDFS服务。2.把要迁移的节点/data/jn下的数据复制到新的节点上（scp /data/jn 10.xx.xx.11:/data/ 注意目录用户属组和权限必须保持正确）3.回到HDFS服务的“实例”页面，添加JN角色给新的节点；把旧的jn节点删除4.重启HDFS服务5.进入HDFS服务页面，点击“操作”->“滚动编辑”，该步骤主要是为了强制同步3个Jo...

2020-01-30 16:15:09 712

原创 sqoop导入hive表时，去除列中的tab键回车键等

sqoop import --connect jdbc:oracle:thin:@10.100.100.1:1521/orcl --username oracle --passowrd oracle --query "select * from oracle.sample where \$CONDITIONS and start_date < to_date('1999-10-31','yy...

2020-01-21 10:26:20 859

原创 Hive中实现数据增量累加主键覆盖的sql

insert overwrite table full_data_table selectddd.data_colfrom( select aa.data_col from full_data_table aaleft join( select b.pk_col as pk_id from full_data_table a left join inc_data_tabl...

2019-12-12 09:16:09 1017

原创 Maxwell 同步blob字段到kafka

Maxwell在同步mysql blob到kafka时候，会用Base64进行加密。也就是说在kafka拿到数据时，blob字段的内容和源库中的数据是不一样的。Maxwell会对blob字段进行Base64加密。所以我们需要在入到存储上的时候进行base64的decode。具体方法如下：importjava.util.Base64public void base64() throw...

2019-12-10 14:44:42 409

原创 Installing the Teradata Connector with CDH5

1. Install the Sqoop connector by opening the distribution archive in a convenient location such as /usr/lib. Opening the distribution creates a directory that contains the jar file of the compiled...

2019-12-10 11:33:05 180

原创如何使用sqoop导入avro file到hive中

1，使用sqoop命令，--as-avrodatafile参数从mysql，表t_movie导入hdfs，编辑命令[root@cdh-demo ~]# cat import_avro.txtimport--connectjdbc:mysql://cdh-demo:3306/mytest--usernamekobezhu--passwordkobezhu--tablet_mo...

2019-11-09 10:26:42 755

原创 Kerberos 命令使用

认证登录kinit admin/admin@EXAMPLE.COMPassword for admin/admin@EXAMPLE.COM: 123456查询登录klistTicket cache: FILE:/tmp/krb5cc_0Default principal: admin/admin@EXAMPLE.COMValid starting ...

2019-11-01 11:28:08 1483

原创 Talend HDFS组件HA连接配置

2019-09-20 09:43:19 258

玩转oracle11g数据泵

详细介绍oracle impdp expdp使用参数

2014-10-14

redhat asmlib 64bit安装包for内核2.6.18-274.el5

redhat server 内核2.6.18-274.el5 64位的asmlib安装工具安装顺序：1 oracleasm-support-2.1.7-1.el5.x86_64.rpm 2 oracleasm-2.6.18-274.el5-2.0.5-1.el5.x86_64.rpm 3 oracleasmlib-2.0.4-1.el5.x86_64.rpm

2013-02-17