在linux系统下统计文件中重复数据,并去重简写。

1.使用uniq命令去重
(1)cat a.txt |sort|uniq -d >> b.txt

将数据排序,把重复数据筛选出来,重定向到另一个文件

(2)cat a.txt b.txt |sort |uniq -u >> c.txt
俩个文件做交集,将去重后文件定向到c.txt

2.使用awk命令去重
(1)awk命令在shell中是比较强大了
cat a.txt |awk -F ‘,’ ‘!a[$1,$2]++’ >> b.txt
将第一列和第二列为一个独立的数据以数组形式去重,取反将去重结果重定向到b.txt

3.还有一种就是通过shell脚本做遍历循环处理,个人觉得没必要,个人理念用最简单的方式处理最复杂的问题,这种处理方式效率太慢,如果非要便利,建议python枚举试试。

4.将数据导入数据库,俩表关联根据条件导出数据为dat文件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值