用uniq来处理文件重复数据--交集，差集，计数等(转)

转载于 2016-06-07 19:07:00 发布 · 107 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/wangkongming/p/5568074.html

本文介绍如何使用sort和uniq命令处理两个文本文件，实现提取重复行、非重复行及计数等功能，适用于数据处理和文本比较场景。

经常有这样的需求：两个文本文件要求取重复的行或只取不重复的，简单的情况下用sort和uniq来处理是非常方便的：
利用现存两个文件，生成一个新的文件

取出两个文件的并集(重复的行只保留一份)
取出两个文件的交集(只留下同时存在于两个文件中的文件)
删除交集，留下其他的行
cat file1 file2 | sort | uniq
cat file1 file2 | sort | uniq -d
cat file1 file2 | sort | uniq -u

当然如果需要计数也有一个很好的参数uniq -c 可以将相同行数的计数放在行首

http://wangyufeng222.blog.163.com/blog/static/128222070201132101729867/

转载于:https://www.cnblogs.com/wangkongming/p/5568074.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。