一个文件里数据是':'分隔的数据,我们只看看第四列数据有几种,可以:
awk -F ':' '!a[$4]++' aa.txt
这样第四列内容一样的,都只在第一次遇到时输出,后面有同样内容的不输出。
下面这个同样效果,更容易理解:
awk -F ':' '!($4 in a){a[$4]; print $_};' aa.txt
awk的数组比较特别,跟我们一般语言的hash类似:
$ awk 'BEGIN{a['aaa']++; print a['aaa'];}'
1
如果对整句去重,去除文件里重复的行:
sort -u temp.txt
这个会排序,改变顺序,但可以去除重复行,输出的都是不重复的。