
大数据部分
mona.jiang
这个作者很懒,什么都没留下…
展开
-
【无标题】
kettle相关原创 2022-09-13 15:11:52 · 423 阅读 · 1 评论 -
kafka相关问题
1、Kafka的了解kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要用于大数据实时处理作用:异步处理、多系统解耦、削峰填谷(缓解服务器的压力)2、MQ选择用的什么?Active MQ:由于性能差,不推荐使用Rabbit MQ:适用于小公司,数据量不是很大,有多语言支持Rocket MQ:使用于阿里电商项目,阿里就用的这个,可看源码kafka:适用于大数据,运维成本高3、kafka作为消息队列是怎么保证数据质量的(不丢、不重复消费)kafka生产者怎原创 2022-03-30 22:13:32 · 2030 阅读 · 0 评论 -
shell date日期函数处理
获取今天时期:date +%Y%m%d 或 date +%F 或 $(date +%y%m%d)获取昨天时期:date -d yesterday +%Y%m%d获取前天日期:date -d -2day +%Y%m%dn天前的 date -d "n days ago" +%y%m%d明天:date -d tomorrow +%y%m%d注意以上中间有空格1个小时之前的:date -d -1hour +'%Y-%m-%d %H:%M:%S'要注意不是单引号是符号 date -d 是固定格式 写参数原创 2020-06-16 15:28:31 · 4269 阅读 · 1 评论 -
hadoop fs 常用命令
查询hdfs系统的目录结构:hadoop fs -ls /test/gonganbu/scene_analysis_suggestion/*随机返回指定行数的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | shuf -n 5返回前几行的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | head -100返回最后几行的样本数据hadoop原创 2020-06-13 18:48:21 · 1673 阅读 · 1 评论