awk统计文本里某一列重复出现的次数

最新推荐文章于 2025-06-16 14:33:57 发布

转载最新推荐文章于 2025-06-16 14:33:57 发布 · 9.3k 阅读

·

0

·

hive etl 专栏收录该内容

42 篇文章

订阅专栏

本文介绍如何利用awk工具高效地统计日志文件中的特定字段出现次数，通过示例展示了如何统计同一时间戳下的记录数量，并对比了uniq-c命令的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

比如这样的场景：现在有一个文本，里面是这样的内容：

NOTICE: 12-14 15:11:13: parser. * 6685 url=[http://club.pchome.net/thread_1_18_7283270___TRUE.html] get_tm=115 PAGE=15471[Z]:59066 css_tm=1043 css_res=0/4[0] CONT=3230[Z]:4797 LINK=6095[Z]:22834 TITL=61 PtDef=7 UnifyUrl=47 PvDetail=444 data_path_tm=254 antispam_tm=1811816124 spaminfo=825 [spam_punish_type:0] spam_serv_tm=[393725], spam_except[ANTI_SUCCESS] ext_tm=183608721 ext_sv=[10.226.42.53:33018] ext_ret=4 dump_tm=226 <StContinuesBuild:don't have FeedData, all strategies must run> db_type=se lua_ku_type=se get IndexFeature is :1270 total_tm=816832421

很明显的这个文本里面的第三列是个时间戳，我想要知道同一个时间内处理了多少条记录，那么使用awk，这样即可。

cat logfile | awk '{a[$3]++}END{for(i in a){print i,a[i] | "sort -k 1"}}'

在这条命令中，将文本的第三列作为key，同样的key不停累加，最后输出累加的数组值。最后sort -k1是将结果按照第一列来排序，就是时间戳的小时来排序。

cat logfile |awk '{a[$1]++}END{for(i in a){print i,a[i]}}'|awk '{if($2 > 1 ){print i,$0}}'

还有一种更为简便的方法，使用linux的uniq -c命令来统计，不用写awk命令：

cat logfile | awk '{print $3}' | uniq -c

说实话，这个命令不好用，不准确。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。