- 博客(37)
- 收藏
- 关注
原创 yumguazai
linux软件安装yum源挂载15/100发布文章Werkple未选择任何文件newrmp 有依赖需要解决,非常麻烦yum安装方式 自动解决安装包的依赖关系yum安装的软件包自动是从网络上获取的,网络不通畅没有网的情况下 我们是不能安珠江软件的 ,所以需要配置本地yum源本地yum源 ,就是一个在本地的安装包的镜像1 将windows中的安装镜像挂载到linux上1)将镜像插到虚拟机的dvd中2)指定一个目录去指向dvd中的内容mkdir /mnt/dvdcd /mount /
2022-01-27 21:15:43
1473
原创 string substr int 更新 cast 日期 hive dt
操作1:将int类型日期(如:20200114)转化为日期类型的日期(如:2020-01-14)step1 创建表并写入数据create table tb (dt INT);insert into tb values (20180701);insert into tb values (20180715);step2 日期转化select dt,from_unixtime(unix_timestamp(cast(dt as string),‘yyyyMMdd’),‘yyyy-MM-dd’) as
2021-01-20 10:42:58
306
原创 将一个数据库里面的分区表全量导入到另一个分区表
insert into 表名 partition (字段1,字段2) select * from d表名;
2020-10-29 10:58:45
1008
1
原创 sqluldr2的安装及注意事项
/u01/app/oracle/product/11.2.0/client/instantclient/u01/app/oracle/product/11.2.0/client/lib/libocci.so.11.1安装时会出现的问题需要做一个软连接,连接之前重名libclntsh.so.10,ln -s /u01/app/oracle/product/11.2.0/client/lib/libocci.so.11.1 libclntsh.so.10执行sqluldr即可生产环境scp -r
2020-09-28 09:15:14
1251
原创 指定hive的切分符号0x0f
在建表时指定0x0f需要将0x0f从十六进制转换成八进制create external table IF NOT EXISTS tmp.ODS_HSTA4_TAGENCYINFO_02(c_agencyno VARCHAR(9),c_agencyname VARCHAR(100),c_agencyaddress VARCHAR(72),c_agencyzipcode VARCHAR(6),c
2020-09-22 15:32:35
553
原创 sqoop命令手册
sqoop安装上传安装包,解压进入conf目录,修改sqoop-env.sh#Set path to where bin/hadoop is availableexport HADOOP_COMMON_HOME=/opt/app/hadoop-2.8.5/#Set path to where hadoop-*-core.jar is availableexport HADOOP_MAPRED_HOME=/opt/app/hadoop-2.8.5/share/hadoop/mapreduce#s
2020-09-19 14:27:44
490
原创 hive的连接方式
第一种;hive的安装目录下./hive启动客户端连接服务,在服务中写sql通过配置环境变量exprot HIVE_HOME=usr/app/hive-2.3.5source /etc/profile或者 . /etc/profile直接输入hive启动show databases;create table t_a(id int,name string)show tables;第二种 HiveJDBC访问启动hiveserver2服务[root@doit01 hive]$ bin/hi
2020-09-19 13:29:17
190
原创 计算dwd层全局明细表
INSERT INTO TABLE DWD_APL_GLB_DTL PARTITION(dt=‘2019-10-29’)SELECTCASEWHEN uid is not null and trim(uid)!=’’ THEN uidWHEN imei is not null and trim(imei)!=’’ THEN imeiWHEN mac is not null and trim(mac)!=’’ THEN macWHEN imsi is not null and trim
2020-09-19 13:06:30
230
原创 创建dwd层表
DROP TABLE IF EXISTS DWD_APL_GLB_DTL;CREATE EXTERNAL TABLE DWD_APL_GLB_DTL (gid string,eventid String,ts bigint,event Map < String,String >,uid String,phoneNbr String,sessionId String,imei String,mac String,imsi String,osName String,osVe
2020-09-19 13:05:29
432
原创 创建表
CREATE EXTERNAL TABLE ODS_APP_LOG (eventid String,timestamp DOUBLE,event Map < String,String >,uid String,phoneNbr String,sessionId String,imei String,mac String,imsi String,osName String,osVer String,androidId String,resolution String,
2020-09-19 13:04:18
204
原创 hive的ods层
#!/bin/bash############################################## author: hunter.d# date : 2019-11-28 # desc : 加载预处理输出的结果数据到ODS层 ODS_APP_LOG############################################# HIVE_HOME=/opt/app/hive-2.1.0# 获取当前时间的前一天日期DT=date -d'-1 day' +'%Y-%
2020-09-18 07:51:50
761
原创 hive常用的交互式命令
1.“-e”不进入hive的交互窗口执行sql语句[root@doit01hive]$ bin/hive -e “select id from student;”2.“-f”执行脚本中sql语句(1)在/opt/module/datas目录下创建hivef.sql文件[root@doit01datas]$ touch hivef.sql文件中写入正确的sql语句select *from student;(2)执行文件中的sql语句[root@doit01hive]$ bin/hive -f
2020-09-17 21:48:09
218
原创 将ods层数据开发到DWD层
#!/bin/bash############################################author: hunter.ddate : 2019-11-28desc : DWD_APL_GLB_DTL 计算脚本############################################HIVE_HOME=/opt/app/hive-2.1.0获取当前时间的前一天日期DT=date -d'-1 day' +'%Y-%m-%d'如果脚本传入了参数,则计算
2020-09-17 21:39:01
1559
原创 加载预处理数据到ods
#!/bin/bash############################################author: hunter.ddate : 2019-11-28desc : 加载预处理输出的结果数据到ODS层 ODS_APP_LOG############################################HIVE_HOME=/opt/app/hive-2.1.0获取当前时间的前一天日期DT=date -d'-1 day' +'%Y-%m-%d'如果脚本
2020-09-17 21:36:51
158
原创 使用shell脚本将数据加载到hdfs
预处理提交脚本0-1#!/bin/bash############################################author: hunter.ddate : 2019-11-28desc : 预处理spark任务提交到yarn计算脚本############################################SPARK_HOME=/opt/app/spark-2.4.0获取当前时间的前一天日期DT=date -d'-1 day' +'%Y-%m-%d'
2020-09-17 21:33:24
642
原创 sparksql性能调优
1代码优化在数据统计的时候选用高性能算子写数据库的时候关闭自动提交,不要每条数据提交一次,自己手动每个批次提交一次复用已有的数据2集群压缩格式选用snappy3集群储存格式选用parquet4参数优化并行度优化...
2020-08-23 20:52:26
119
原创 linux中mysql安装
1查找MySQL版本 yum list | grep mysql2 安装MySQL** yum -y install mysql-server.x86_643启动sql服务** service mysqld start4修改密码执行、usr/bin/mysql_secure_installation后续全部填y,输入两次密码完成5mysql -uroot -p 登录6查看数据库:show databases;...
2020-07-15 17:19:08
110
原创 关于VMware虚拟网络编辑器VMnet8和VMnet1的问题
当操作VMware时虚拟网络编辑器VMnet8和WMnet1消失时检查是否将主机虚拟适配器连接到此网络,这个地方是自动生成网卡的关键;
2020-07-11 19:56:52
800
原创 MR程序在yarn上的运行基本流程
1:客户端提交job到resourceManger2:resourceManger创建job任务 返回工作路径给客户端3:客户端接收到工作路径后会在HDFS上创建工作目录,初始化job创建工作目录:1读取默认的配置 自定义配置(conf.xml)2计算要处理的数据(计算任务切片)3上传jar包4:客户端向resourceManger请求创建任务的容器(1core,1.5G)5:r...
2020-03-25 17:26:10
784
原创 MapReduce高效topN
输出每个用户评分最高的N条记录电影高效topN案例1)用户自定义bean为KEY 并指定排序规则2) 用户自定义分发器 ,按照用户执行的属性将数据分发到不同的reduce端3) 分组迭代数据输出 ,指定属性进行分组自定义KEY的排序/**用户自定义Bean作为KEY 指定排序规则 , 实现hdp的序列化@author DOIT_HANG_GE@version 2019年2月27日...
2020-03-15 13:26:29
326
原创 MapReduce之文件合并
将一些小文件合并成大文件/**将大量的小文件合并@author DOIT_HANG_GE@version 2019年3月1日*/public class FileMerger {public static class FileMapper extends Mapper<LongWritable, Text, Text, Text> {String fileN...
2020-03-15 13:24:27
979
原创 索引案例/共同好友案例
3.3.3.索引案例有大量的文本数据 , 查找出每个单词在每个文件中出现的次数 3.3.3.1.INDEX1/**查看单词在各个文档中出现的次数@author DOIT_HANG_GE@version 2019年2月26日*/public class Index1 {public static class Index1Mapper extends Mapper<LongW...
2020-03-15 13:19:17
171
原创 电影案例[求平均分,评分最高的N条记录,.每部电影的点击次数(求热门)]
3.3.2.2.每部电影的平均分/**求每部电影的平均分@author DOIT_HANG_GE@version 2019年2月26日*/public class MovieAvgRate {public static class MovieMapper extends Mapper<LongWritable, Text, Text, MovieBean>{...
2020-03-15 13:17:34
868
原创 用户流量案例
.用户流量案例统计每个用户的总流量统计每个用户的总访问量 , map端以用户的手机号为key输出, 以用户的记录bean为valuereduce会将数据按照用户的手机号分组 , reduce中统计各个用户的总流量,输出用户手机号和用户的总流量**FlowBean**public class FlowBean implements Writable{private String te...
2020-03-15 13:15:15
195
原创 Mapreduce编程模型
mapreduce编程模型的分布式编程发的步骤1)迭代 , 遍历输入数据 , 将数据解析成key/value对2)将输入的key/value对,映射(map)成新的key/value对3)根据key对中间数据进行分组(grouping)4)以组为单位对数据进行规约(reduce)5)迭代,将最终产生的key/value对输出到文件中组件化和并行化InputFormat Mapper...
2020-03-15 13:08:19
285
原创 MR数据倾斜解决方案
1.数据倾斜由于mapreduce程序是按照key的hash值进行分区的 , 如果某些单词特别多 , 特别多的单词就会被分到同一个reduce去处理 ,有些reducere任务处理的数据量小有些reduce任务处理的数据量非常大只有所有的reduce任务完成以后job才算完成 , 造成job的工作时间变长 [任务分配不均匀]1 将key打散在key上添加随机数 根据 reduc...
2020-03-13 20:41:26
1608
原创 Mapreduce程序实现思路
Map的输出 是key,value的 listReduce的输入是key。value的listMapReduce核心思想分而治之,先分后和;
2020-03-13 15:26:11
787
原创 hadoop-HA高可用
在HDFS集群中只有一个namenode节点,管理所有元数据是,当当前namenode节点无法启动时,这个集群处于瘫痪状态,无法对外服务,还有可能造成大量数据丢失的风险(单点故障问题)如何避免单点故障?1配置两个namenode(一台处于活跃状态,一台处于等待状态);2将操作记录存入到外部的日志管理系统,等待状态的namenode定期的去读取日志数据,查看用户的操作记录,反序列化到Fsima...
2020-03-13 13:47:49
240
原创 hadoop-checkpoint(元数据管理)机制
namenode对元数据的管理1可以将元数据信息记录在内存对象(tree结构)2可以将数据储存在磁盘中原理流程1在安装hadoop集群是对hadoop进行初始化设置(hadoop namenode-format),会自动生成Fsimage;2操作服务器时产生的日志会保存到日志管理系统中3在操作是一边往fsimage写数据,一边记录日志4定期将fsimage序列化到本地磁盘image...
2020-03-13 13:28:27
345
原创 HDFS常用命令
命令行客户端可以查看集群信息 , 运维信息 , 文件系统操作hdfs dfs -cmdhaddop fs -cmd查看目录 hdfs dfs -ls /创建目录 hdfs dfs -mkdir -p /xxx/yyy上传文件 hdfs dfs -put /root/a.txt /下载文件 hdfs dfs -get /a.t...
2020-03-10 13:23:23
255
原创 linux 免密配置ssh
安装sshyum list |grep ssh查找sshyum -y install openssh-clients.x86_64安装ssh1机器生成秘钥 ssh-keygen2将公钥发送给要免密连接的机器ssh-copy-id big01ssh-copy-id big02ssh-copy-id big03注(每台机器都要生成秘钥,发送公钥)...
2020-03-10 11:23:59
140
原创 JAVA_HOME配置
目录/etc是系统配置文件所在的目录1)上传jar包2)解压JDK到指定到目录3)vi /etc/profileexport JAVA_HOME=/usr/apps/jdk1.8.0_141export PATH=PATH:PATH:PATH:JAVA_HOME/bin4)source /etc/profile...
2020-03-10 08:57:38
253
原创 linux域名映射和主机名修改
修改主机名临时生效:hostname 主机名永久生效:修改配置文件vi /etc/sysconfig/networkHOSTNAME=NEWNAME修改映射关系配置的是域名的映射修改主机名和ip地址之间的映射关系vi /etc/hosts192.168.133.3 linux01在windows 的用户盘(c盘)C:\Windows\System32\drivers\etc...
2020-03-09 18:09:20
1339
原创 Linux基础
4.2.1.cd英文:change directory 命令路径:内部命令 执行权限:所有用户作用: 切换目录语法:cd [目录]/ 切换到根目录 … …/ 回到上一级目录 . 当前目录显示并打开到上一次操作的目录 ~ 当前用户的宿主目录...
2020-03-09 17:27:51
204
原创 spark数据倾斜如何解决
一、什么是数据倾斜就是大量的相同key被partition分配到一个分区里,造成了"一个人累死,其他人闲死"的情况,这违背了并行计算的初衷,整体的效率是十分低下的。二,数据倾斜的原因当我们看任务进度长时间维持在99%(或100%),查看任务监控页面就会发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大,这就是数据倾斜的直接表现。而导致这个的原因...
2020-01-02 22:22:28
114
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人