linux awk 按多列 去重 来统计数据之妙用

本文介绍了一种使用awk命令处理日志文件的方法,该方法能够帮助我们统计特定字段的出现次数并进行去重处理,适用于分析用户点击行为等场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是我日常工作统计日志用到的,现记录下:

比如有这样一个日志:


 

需要统计push,的点击数量,按cookie去重,因为一个设备可能点击多次

 

第一步,先看看这几列,打印出来看看,

awk -F "," '{print $2" "$3" "$6" "$7" "$9}' pushLog.log

 

 

第二步,按上面的几列去重

awk -F ","  '!a[$2,$3,$6,$7,$9]++'  pushLog.log

 

 

第三步, 统计

awk -F ","  '!a[$2,$3,$6,$7,$9]++'  pushLog.log  |awk -F ","  '{a[$2" "$3" "$6" "$9]+=1}END{for(i in a) printf "%s %s\n",i,a[i]}' | sort -k 5 -n -r | head -n 15

 

结果如图:



 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值