hdfs文件目录中查找某个字符串所在位置

蒙奇奇的故事

于 2018-09-25 19:00:03 发布

阅读量5.8k

点赞数

分类专栏： hadoop 文章标签： hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_39330443/article/details/82843486

版权

hadoop 专栏收录该内容

5 篇文章

订阅专栏

最近写一个MR处理数据时,遇到某一条文件乱码,需要查找改条记录的原始数据.由于文件全部保存在hdfs上面,因此需要查看该字符串在文件中的位置.

hadoop fs -text $file |fgrep "$param" --color

参数说明:

$file 文件在hdfs上路径

$param 需要查找的字段

使用shell脚本循环遍历目录时:

for file in `hadoop fs -ls /home/test/2017-08-23 |awk '{print $NF}'`

do

echo $file hadoop fs -text $file |fgrep "0001a794d86f0844" --color

done

查看文件加上分隔符

hadoop fs -text /weblogs/all_api/20180919/* | fgrep '101485402' | cat -v

蒙奇奇的故事

博客等级

码龄8年

34
原创

36
点赞

135
收藏

10
粉丝

关注

私信

热门文章

分类专栏

java 22篇
线程 2篇
hadoop 5篇
mysql 1篇
定时任务 2篇
greenplum 1篇
jdbc 2篇
日志 1篇
发送邮件 2篇
前端 1篇
python 2篇
shell 1篇
linux 1篇

展开全部收起

上一篇：: hive 自定义函数UDF

下一篇：: java split方法注意事项

最新评论

JavaMail 邮件附件名乱码问题
蒙奇奇的故事: <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-mail</artifactId> <version>1.4.0.RELEASE</version> </dependency> 可以找到 javax.mail.internet.ParameterList
JavaMail 邮件附件名乱码问题
飞向月亮的胡萝卜: 博主，请问一下您这个jar包用的是哪个版本的呀，我看我1.4版本的jar，搜不到mail.mime.splitlongparameters 这个环境变量
com.sun.mail.util.MailConnectException: Couldn't connect to host异常解决
两个蝴蝶飞: 借楼主宝地，补充一下 yaml 的相关的配置: spring: mail: host: smtp.qq.com # smtp.qq.com 对应的ip username: 12@qq.com password: xxxx properties: mail: smpt: auth: true starttls: enable: true required: true socketFactory: port: 465 class: javax.net.ssl.SSLSocketFactory fallback: false protocol: smtp: port: 465
JavaMail 邮件附件名乱码问题
张无奇: 妙呀
The field file exceeds its maximum permitted size of 1048576 bytes.解决方法
从事Java的小白: Mb源码中是大写，不然会报错

大家在看

基于Python实现的酒店住房管理系统

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。