使用sort命令和awk命令对数据集的label进行处理

最新推荐文章于 2022-10-26 14:47:50 发布

wblzu

最新推荐文章于 2022-10-26 14:47:50 发布

阅读量689

点赞数

CC 4.0 BY-SA版权

分类专栏： linux实用命令文章标签： awk 数据集处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wblzu/article/details/40478465

linux实用命令专栏收录该内容

4 篇文章

订阅专栏

本文介绍了如何利用Linux的sort命令按数值对数据集的第三列进行排序，以及如何结合awk命令对第三列数据进行减一操作。这个方法在数据预处理，特别是在聚类分析中，确保数据集和分类结果的label对应一致时非常有用。通过sort的numeric排序选项和awk的字段处理功能，实现了标签的重新调整，以适应分类结果的评估需求。

太兴奋了。我就网上查了以下检索到这个：blog.sina.com.cn/s/blog_4af3f0d20100gux5.html

sort -n -k2 file.txt 或则sort -g -k2 file.txt(从小到大排序)

sort -rn -k2 all_contig.txt（加-r从大到小排序）。

-n,--numeric-sort

-g,--general-numeric-sort

试了以下果然可以按照第三列排序。

接下来我试了以下awk可以给某列减去一。那么完整的命令就是这样

sort -n -k3 spiral.txt |awk '{print $1"\t"$2"\t"$3-1}'。

我是在使用python做cluster聚类的时候，我的聚类结果和源数据的类标label不一样。为了做分类结果的评价evaluate，必须把label的标号做统一了。比如数据集的类标号可能（1，2，3），而我的分类结果的类标号是（0，1，2）。我当然可以把cluster结果的类标设置成和数据集一样的（1，2，3）。但是聚类结果的类标也不能和数据集的相对应。比如数据集的类标是这样[2,2,1,1,3,3]，cluster结果可能是[1,1,2,2,3,3]。这样我的cluster结果很好，准确率是百分之百。但是要是直接把结果代入评价函数，评价出来的结果肯定是错误的。

这样，我的命令做了两个事情。

1）将数据集按照label列排序

2）将第三列的数据减一。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。