导数据步骤

加油努力工作实现梦想低消费还房贷

已于 2023-11-09 10:32:12 修改

阅读量94

点赞数 1

文章标签：数据仓库 etl工程师大数据

于 2023-11-08 10:29:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_47685215/article/details/134283184

版权

本文介绍了如何通过SQL查询大量数据并将其转换为CSV文件，包括在堡垒机上执行、上传至HDFS，以及使用后台脚本进行日志记录和文件操作，如模糊查询、字符串替换、大文件切分与重命名，以及编码长度统计的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SQL直接查询出来的不能下载超过10万条

1.查询SQL

2.写成一个文件，在堡垒机上执行

impala-shell -q "

select * from t

" -B --output_delimiter="," --print_header -o /home/user/tmp_data/wj/test.csv

3.将文件上传导hdfs：hadoop fs -put XX123.csv /user/wj

4. 然后到hue的user/目录选中下载

后台运行脚本写日志到文件命令：

nohup sh ./xx_idcard_123.sh > xx_idcard_123.log 2>&1 &

nohup sh ./shell_script.sh > shell_script.log 2>&1 &

字符串内容特殊符号替换 regexp_replace(content, '\\n|\\t|\\r', '')

regexp_replace(content,'([a-z]+|[A-Z]+|[0-9]+)','*')

REPLACE(mobile,SUBSTR(mobile,4,4),'****')

regexp_replace(content,'[0-9]','*')

模糊查询多个字符串： regexp '优惠|你好|再见'

模糊查询多个字符串： rlike '.*(优惠|你好|再见).*'

点号表示和任意字符匹配，星号表示重复“左边的字符”零次到无数次

切分大文件命令，在堡垒机中执行：split -b 50M xx20200807.csv

split -b 100M /atmd/data/i0610_2.csv -d -a 4 test111

split -l 700000 /atmd/data/i0610_2.csv -d -a 4 test111

切分加批量改名：

split 文件名 -l 1000 -d -a 3 前缀_ && ls | grep 前缀_ | xargs -n1 -i{} mv {} {}.csv

1split命令：

-l指定行数，每个文件多少行

-b指定大小，每个文件100M.,这种担心会破坏一行的完整性

-d指定用数字递增为生成的文件名编号 test111为前缀

-a指定有几位数字这里指定了4位，则从0000开始

-- 数据修改文件后缀名

-- find . -name '*.data.0.' | xargs -n1 -i{} mv {} {}.csv

指定字符串的编码集统计其长度：

length(encode(content,'EUC-KR'))

加油努力工作实现梦想低消费还房贷

博客等级

码龄5年

10
原创

10
点赞

0
收藏

1
粉丝

关注

私信

热门文章

下一篇：: clickhouse

最新评论

导数据步骤
优快云-Ada助手: 恭喜你开始了自己的博客创作之路！写作是一个非常有趣和富有挑战的过程，希望你可以坚持下去。对于“导数据步骤”的内容，我觉得可以在下一篇博客中加入一些具体的案例或者实际操作的经验分享，这样可以更好地帮助读者理解和应用。希望你可以继续努力，不断提升自己的写作技巧，期待看到更多精彩的内容！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
clickhouse
优快云-Ada助手: 很棒的博文！你对clickhouse的知识了解得很透彻，能够清楚地解释数据保存和合并的过程。希望你能继续分享关于clickhouse以及其他数据处理技术的文章，对读者来说一定会有很大帮助。另外，除了数据合并mergetree，你可能还可以探讨一下clickhouse的分布式架构和查询优化等方面的知识，这些内容也是很有价值的。期待你的下一篇作品！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
impala/hive自定义函数
优快云-Ada助手: 恭喜你写了第三篇博客！对于impala/hive自定义函数的介绍很详细，让我受益匪浅。希望你能继续保持创作的热情，不断分享更多有价值的内容。下一步可以考虑结合实际案例，深入探讨自定义函数的应用场景和优化方法，相信会更加丰富你的博客内容。期待你的下一篇作品！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Linux定时任务Crontab命令详解
优快云-Ada助手: 恭喜您写了第四篇博客，标题为“Linux定时任务Crontab命令详解”！您的创作热情可嘉，对于Linux定时任务的详细解析给读者提供了很大的帮助。同时，您的标题也很吸引人，能够引起读者的兴趣。在下一步的创作中，建议您可以考虑分享一些实际应用场景下Crontab命令的使用技巧和注意事项。这样，读者不仅能够了解Crontab命令的基本原理，还能够更好地应用于实际工作中。同时，也希望您能够保持谦虚的态度，虚心接受读者的建议和意见，不断提升自己的创作水平。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.youkuaiyun.com/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
后台运行脚本
优快云-Ada助手: 恭喜作者发布了新的博客！看到你分享了关于后台运行脚本的内容，让我感到很兴奋。不过我觉得接下来可以考虑分享一些关于脚本优化或者自动化运维方面的内容，这样能够帮助更多的读者解决实际问题。谢谢你的分享，期待你更多的精彩内容！

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。