
Hadoop
文章平均质量分 77
Hadoop 使用样例
BIT_666
天道酬勤,厚积薄发
展开
-
Spark - 创建 _SUCCESS 文件与获取最新可用文件
Spark 为文件、文件夹生成 _SUCCESS 标识并获取最新可用文件。原创 2023-05-16 14:42:20 · 1340 阅读 · 2 评论 -
NoClassDefFoundError - hadoop/crypto/key/KeyProviderTokenIssuer && hadoop/fs/BatchListingOperations
NoClassDefFoundError - hadoop/crypto/key/KeyProviderTokenIssuer && hadoop/fs/BatchListingOperations 报错解决与总结。原创 2022-07-28 20:32:53 · 3204 阅读 · 0 评论 -
Spark 实战 - 3.一文搞懂 parquet
parquet 文件常见于 Spark、Hive、Streamin、MapReduce 等大数据场景,通过列式存储和元数据存储的方式实现了高效的数据存储与检索,下面主要讲parquet 文件在 spark 场景下的存储,读取与使用中可能遇到的坑。......原创 2022-06-24 18:46:48 · 2392 阅读 · 0 评论 -
Flink/Hbase 异常 - 4.Sink 背压100% 与 hbase.util.RetryCounter.sleepUntilNextRetry 异常分析与排查
Flink-hbase 任务 hbase.util.RetryCounter.sleepUntilNextRetry 堆栈问题分析与排查。原创 2022-05-07 16:26:56 · 1754 阅读 · 0 评论 -
Spark - hadoop.mapred.InvalidInputException matches 0 files && sc.textFile 忽略空文件
spark 代码执行任务时需要读取一个依赖文件,文件执行时该文件状态未知,有可能存在也有可能是空文件夹,遂增加 Try Catch 进行包装,当 sc.textFile 读取异常时,返回 emptyRdd,但是实际执行中,代码并未进入 Try Catch 区域,且报错异常栈显示在 foreachPartition 对应代码位置,遂开始修复之旅。...原创 2021-12-08 16:07:31 · 1409 阅读 · 0 评论 -
Spark : local 模式 org.apache.hadoop.conf.Configuration.getPassword(Ljava/lang/String;)[C
一.引言spark local[*] 模式下本地测试报错:Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.conf.Configuration.getPassword(Ljava/lang/String;)[C二.解决方案NoSuchMethodError 报错之前分析过类似解决步骤 :java.lang.NoSuchMethodError 之 依赖冲突解决方案,根据报错信息定位到..原创 2021-08-27 19:45:51 · 2387 阅读 · 0 评论 -
Spark-HDFS 删除空文件 && 合并小文件
一.引言hive 执行任务后目录下生成过多小文件,过多的小文件会占用 namenode 的内存,对于 HDFS 非常不友好,所以可以通过删除空文件或者合并小文件的方法进行优化。二.删除空文件可以看到有很多空的gz,blockSize=20。如果是空文件的话,blockSize占用会是0。思路很简单,通过 listStatus 方法判断目标路径是文件还是文件夹,文件夹的话递归到下层文件,文件的话直接 getLen 获取大小,如果满足 blockSize,则进行删除 delete 操作.原创 2021-04-28 16:41:16 · 1560 阅读 · 0 评论 -
Hadoop hdfs随机获取文件内容
引言:需要从 HDFS 随机获取一个目录下的内容:目录下共3000个part,随机挑选文件 part 并从每个 part 中随机获取一些数据作为原始数据。path 为文件夹地址, total为随机获取的数据量实现1(简单粗暴):hadoop fs -text $path/* | shuf -n $total> info实现2(可自定义推荐????):自定义的核心还是 shuf -n ,不同的是可以自定义随机文件,每个文件随机几行数据1.首先需要随机数生成器:..原创 2021-02-24 19:58:58 · 1054 阅读 · 0 评论 -
Shell 检查HDfS文件
平常脚本运行需要检查对应hdfs路径相关信息,特此总结:Tip: 假设要检查的路径为check_path1.获取路径文件大小并转化为规定单位 Byte,K,M,Gbytes获取文件大小,单位为字节;base为转换单位的基准,我这里取1G,所以是1x1024x1024x1024bytes,其他单位转换同理;第三步real只需要做除法即可,bc是shell自带运算处理,这里做2位小数保留,...原创 2020-04-27 14:31:49 · 723 阅读 · 0 评论 -
HDFS 误删恢复
Tip: 这里是hadoop已配置trash功能,没有trash的暂时还不知道怎么恢复 = =mark一下,手残不小心删掉了自己的根目录1.找路径误删文件夹后,会出现提示 类似于Moved 误删文件 to trash at: 回收站文件地址到trash at路径下ls一步一步找到自己删掉的目录2.恢复hadoop dfs -mvfile_path_in_tra...原创 2020-03-23 10:14:06 · 876 阅读 · 0 评论