- 博客(11)
- 收藏
- 关注
原创 Hive中查询中出现数据倾斜,如何解决?
针对大combiner采用负载均衡,需要运行两个mr程序时手动开启负载均衡设置(set hive.groupby.skewindata=true),在map任务完成后采用随机分发的方式,保证后面的每一个reduce拿到相等数量的数据信息更彻底解决数据倾斜问题,同时减轻数据倾斜的压力.注意:两表连接首先考虑使用条件过滤,过滤后再通过Map Join,Bucket Map Join,SMB Join来解决数据倾斜, 但是这种操作是存在使用条件的, 不满足条件无法使用.1.运营期处理方案(全自动)
2023-11-28 22:29:12
229
原创 Hive调优
主要手段有:join连接 本地模式严格模式 JVM重用 并行执行 推测执行SQL优化(列裁剪, 分区裁剪, groud by 操作, count(distinct), 笛卡尔积,)DEFAULT(默认形式) Gzip bzip2 LZO LZ4 Snappy(大多数情况下选用)
2023-11-17 21:32:52
78
原创 linux系统
虚拟网卡模式: NAT模式 桥接模式 仅主机模式NAT模式: 虚拟机将你的Windows电脑当做路由器上网,也就是借助Windows电脑上网仅主机模式: 虚拟机无法上网,只能和你的Windows电脑互通桥接模式: 虚拟机将自己接入你Windows电脑所在的网络中,也就是借助你Windows电脑用的路由器上网DHCP:(Dynamic Host Configuration Protocol)动态主机配置协议 ,向客户端动态分配 IP 地址和配置信息。
2023-11-08 22:22:52
54
1
原创 linux基础命令操作
head [-num] 文件路径: 查看文件的头部几行 默认前10行 当然-num可以指定任意行数。tail [-num] 文件路径: 查看文件的尾部几行 默认后10行 当然-num可以指定任意行数。ls [-a -l -h] [路径] : 查看指定路径下文件列表 注意: 默认都是当前路径。less [-N] 文件: less查看文件内容,一般建议查看大文件(可以翻页,可以搜索)rm [-r -f] 要删除的文件或者文件夹: 删除指定的文件或者文件夹。
2023-11-04 22:30:13
73
1
原创 python数据容器
数据容器含义: 能够存储多个元素的数据类型,叫数据容器常见的数据容器: 列表(list) 元组(tuple) 字符串(str) 集合(set) 字典(dict)各个容器符号列表: 中括号 [] 举例: [元素1,元素2,元素3,...]元组: 小括号 () 举例: (元素1,元素2,元素3,...)字符串: 引号 '内容'/"内容"/'''内容'''/"""内容""" 注意: 在字符串中每个字符都是一个元素。
2023-10-03 17:18:45
37
原创 Python函数
函数必须先定义再调用函数不调用不执行函数每调用1次就执行1次函数的参数和返回值根据需求定是否含有定义时有形参,调用时必须传入对应的实参定义时有返回值,调用时建议用变量接收定义时没有return 返回值,默认返回的None;也可以手动返回None,此操作没有意义。
2023-10-03 17:03:40
43
原创 python基础语法
print('我的姓名是 ' + name + ' 年龄是 ' + str(age) + ' 体重是 ' + str(height) + ' 公斤')print('我的姓名是%s,年龄是%d,体重是%.2f公斤' % (name, age, height))print('我的姓名是', name, '年龄是', age, '体重是', height, '公斤')print('我的姓名是%s,年龄是%s,体重是%s公斤' % (name, age, height))
2023-09-28 21:38:21
59
原创 大数据导论及计算机编程语言
体量大,种类及数据来源多,低密度价值,存储速度快,运算速度快,处理速度快,数据可靠,值得信赖.大数据(big data):无法用常规软件进行处理,需要采用一种新的模式进行处理的数据集合.编译型语言(eg:java):一次编译多次使用,相对于解释性语言执行速度快, 但较复杂.2.系统软件:承上启下的作用,应用软件与硬件之间的桥梁,没有系统软件的计算机成为裸机.1.种类:系统软件(windows,mac,linux)及应用软件。冯诺依曼体系结构:输入设备,输出设备,内外存储器,运算器,控制器。
2023-09-28 21:37:04
108
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人