
Hadoop
文章平均质量分 59
zxfBdd
这个作者很懒,什么都没留下…
展开
-
Hive分区表新增字段后插入数据显示为null
对Hive分区表进行新增字段后,会出现一个奇怪的情况,就是往 已经存在的 分区中装载数据后,某些字段的值显示为null,但实际情况是数据文件中对应的字段值其实是有值的。下面我们重现该问题:创建一个分区表往表中装载数据给表新增分区再往表中装载数据并查询数据装载成功后,通过查询可以看出,新创建的分区中数据显示正常,但是已经存在的time=20171010分区中新增数据后,新增的字段显示为null。难道数据没有插入成功?查看分区表在HDFS上对应的数...转载 2021-12-29 17:49:00 · 1751 阅读 · 1 评论 -
hive新增字段以后,插入成功但是显示为null
hive新增两个字段,执行脚本没有报错,select出来以后值为空然后单独执行代码发现,数据不为空解决方法:1.show create table table_name;找到该表元数据的存储路径2.删除该分区路径下的deflate文件:hadoop fs -rm hdfs://ns1/user/hive/warehouse/xxx.db/table_name/dt=2019-01-20/000000_0.deflate即可重新初始化数据,重新select显示正常。...转载 2021-12-29 17:41:23 · 826 阅读 · 0 评论 -
Hive添加列、修改列(调整位置)、删除列操作等
1.添加1列或多列# 添加1列alter table table_name add columns( user_id bigint comment '用户ID');# 添加多列alter table table_name add columns( name string comment '用户名称', city string comment '城市', sex string comment '用户性别', age ...转载 2021-12-24 15:59:34 · 6690 阅读 · 0 评论 -
Hadoop学习之路(二十一)MapReduce实现Reduce Join(多个文件联合查询)
目录1 思路 1.1 reduce join 1.2 map join 1.3 使用内存服务器,扩大节点的内存空间 1.4 使用BloomFilter过滤空连接的数据 1.5 使用mapreduce专为join设计的包 2 实现reduce join 3 实现map join正文MapReduce Join对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会...转载 2021-05-20 20:32:47 · 541 阅读 · 0 评论 -
Hadoop Shuffle和Spark Shuffle的区别
一.MR的Shuffle mapShuffle 数据存到hdfs中是以块进行存储的,每一个块对应一个分片,maptask就是从分片中获取数据的 在某个节点上启动了map Task,map Task读取是通过k-v来读取的,读取的数据会放到环形缓存区,这样做的目的是为了防止IO的访问次数,然后环形缓存区的内存达到一定的阀值的 时候会把文件益写到磁盘,溢出的各种小文件会合并成一个大文件,这个合并的过程中会进行排序,这个排序叫做归并排序 1.1map阶段...转载 2021-04-20 20:41:12 · 431 阅读 · 0 评论 -
HBASE的备份策略(数据迁移)
1.利用hbase本身提供的接口执行导出表操作导出操作:./hbase org.apache.hadoop.hbase.mapreduce.Driver export表名"hdfs://192.168.x.x:9000/111" 本地路径或者hdfs的路径导入操作:./hbase org.apache.hadoop.hbase.mapreduce.Driver import表名(已经...转载 2020-05-08 15:51:02 · 488 阅读 · 0 评论 -
HBase跨集群数据迁移的一种方法
从源hbase集群中复制出HBase数据库表到本地目录hadoop fs -get scp到目的集群 hadoop fs -put 到目的集群HDFS亦可使用distcp将集群复制至目标集群具体办法参考:DistCp修复.META.表和重新分配数据到各RegionServer在.META.表没修复时执行重新分配,会报错#hbase hbck -fixAssignme...转载 2020-05-08 15:43:06 · 389 阅读 · 0 评论 -
hadoop distcp hftp hdfs跨集群拷贝常见问题归总
在工作中遇到部门间数据合作,需跨不同版本集群拷贝数据,从hadoop 2.6.0-cdh5.7.0 拷贝数据到hadoop 2.7.1, 记录所碰到的问题及解决方案。distcp基础用法比如拷贝A集群(src集群)的A1目录到B集群(dest集群)的B1目录,1.同版本集群拷贝(hdfs协议):在dest集群(目标集群)运行命令:hadoop distcp hdfs:...转载 2020-05-08 15:36:38 · 1327 阅读 · 0 评论 -
yarn虚拟cpu和虚拟内存
目录虚拟cpu 虚拟内存正文回到顶部虚拟cpu虚拟的cpu代码并发数,如果一个container拥有2个vcpu,那么该container就可以真正的在同一时间运行两个线程,而不是靠切时间片而达到的逻辑并发。所以一般虚拟的cpu需要和物理cpu的个数保持一致yarn的计算单元称为YCUs,其实就是把1个cpu分为n份,通常情况控制在1:1000左右,也就是说一个一...转载 2020-04-27 09:43:10 · 1031 阅读 · 0 评论 -
Hive中带条件查询时报Class org.apache.hive.hcatalog.data.JsonSerDe not found的错误及解决办法
数据计算平台重新搭建成功后,一切顠红,看起来心情就是舒畅,放个截图让心情爽一把:后续当然需要做一些验证性的工作,以确保安装成功后一切都是执行OK的。先放一些测试的JSON文件到HDFS的/tmp/test_json目录下,然后打开HUE界面,进行Hive SQL执行窗口,先创建一个基于JSON文件的外部表:CREATE TABLE ...转载 2020-01-20 11:49:42 · 2535 阅读 · 0 评论 -
Hive读取不到Flume正在写入的HDFS临时文件的解决办法
问题导读1.本文的应用场景是什么?2.Hive读取不到Flume正在写入的HDFS临时文件,该如何解决?实际工作遇到如下场景:应用服务器收集到的日志信息,通过Flume写入到HDFS指定目录,而Hive将其映射到表,进行离线统计。计划计划方式处理:Hive的表创建为外部分区表,例如:USE mydb; CREATE EXTERNAL TABLE mytable ( ...转载 2019-09-25 11:51:26 · 1792 阅读 · 0 评论