数组排序(awk)

最新推荐文章于 2025-08-24 09:33:02 发布

原创最新推荐文章于 2025-08-24 09:33:02 发布 · 3.6k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#access #c #vb #list #扩展 #测试

Awk 专栏收录该内容

4 篇文章

订阅专栏

这篇博客介绍了如何使用awk处理包含多个字段的文件，统计每行中字符'X'出现的次数，并按出现次数排序。方法包括利用关联数组、awk内置的asort和asorti函数，以及结合-F选项和sort命令的技巧。

2011-08-04 wcdj

http://topic.youkuaiyun.com/u/20110803/14/86369f36-d4cd-47a4-9d6e-bc8185a6d201.html
问题：
比如说，文件格式如下：
a b x c d
x a c d a
c x x d v
...

每行有5个字段，统计每行出现x的次数，
并根据x的数量从小到大重排各行。

方法1：使用关联数组。（限制是每一行x的数量都必须不同）

awk中的数组的下标可以是数字和字母，称为关联数组。

# test.awk

#BEGIN{
#	myarray[-1]=ARGV[1];# awk -f test.awk data
#	print myarray[-1];  # print data	
#}
{
	cnt=0;
	for(i=0; i<NF; ++i){
	# debug
	#	printf("%c ",$(i+1));
		if($(i+1)=="x"){
			++cnt;
		}
	}		
	#printf("\n");
	myarray[cnt]=$0;
}
END{
	for(i=0; i<=NF; ++i){
		if(myarray[i]){
			print myarray[i];
		}
	}
}

测试：data.txt
a b x c d
b x c x x
c x x d v

awk -f test.awk data

输出：
a b x c d
c x x d v
b x c x x

方法2：使用排序函数。（限制同方法1）

排序是经常用到的操作，然而原始版本的awk并没有内置的sort函数，想要排序数组的话只能自己实现一个sort函数。在gawk的3.1以后的版本，扩展提供了对数组的sort功能：asort和asorti函数。awk中并不存在真正的数组或者list，它的数组其实是关联数组模拟的，所以gawk中的sort接口都是针对关联数组的。
(1) asort函数
asort函数排序一个关联数组，排序后的数组的value值有序排列，数组的下表变为1，2，……，N，也就是说asort函数会舍弃原先关联数组的下标。这个是因为，想要按照固定的顺序访问关联数组，只能借助于下标的有序。
   n = asort(data);
   for (i = 1; i <= n; i++)
       do something with data[i];
asort可以接受第二个参数，用来存储排序后的结果，这样原来的数组可以保持不变，避免了下标的丢失。
   n = asort(source, dest);
   for (i = 1; i <= n; i++)
       do something with dest[i];

(2) asorti函数
在gawk3.1.2以后的版本还提供了一个asorti函数，这个函数不是依据关联数组的值，而是依据关联数组的下标排序，
   n = asorti(source, dest);
   for (i = 1; i <= n; i++) {
       do something with dest[i];           Work with sorted indices directly
       ...
       do something with source[dest[i]];   Access original array via sorted indices
3.1.0和3.1.1的版本的gawk没有提供这个函数，但是可以很容易通过asort函数进行模拟，编写自己的asorti函数。

# test.awk

BEGIN{
	#myarray[-1]=ARGV[1];# awk -f test.awk data
	#print myarray[-1];  # print data	
}
{
	cnt=0;
	for(i=0; i<NF; ++i){
	# debug
	#	printf("%c ",$(i+1));
		if($(i+1)=="x"){
			++cnt;
		}
	}		
	#printf("\n");
	myarray[cnt]=$0;
}
END{
	n=asorti(myarray, dest);#  asorti(gawk3.1.2)
	for(i=1; i<=n; ++i){
		print myarray[dest[i]]; #print value of array
	}
	#for(i=0; i<=NF; ++i){
	#	if(myarray[i]){
	#		print myarray[i];
	#	}
	#}
}