Leetcode: Transpose File (shell, awk)

最新推荐文章于 2019-02-22 00:21:00 发布

原创最新推荐文章于 2019-02-22 00:21:00 发布 · 618 阅读

0 ·

CC 4.0 BY-SA版权

bash 同时被 2 个专栏收录

2 篇文章

订阅专栏

awk

2 篇文章

订阅专栏

本文详细解析了awk脚本在处理文件时的内存优化策略，包括内存超限问题的原因分析、两种不同算法的实现方式及其优劣对比。通过实践案例，展示了如何在awk脚本中有效地读取和处理大量数据，避免内存溢出，以及如何利用二维数组进行文件转置操作。同时，文章还强调了shell命令中的一些细节和最佳实践，如变量使用、字符串处理和脚本执行流程的重要性。

考察awk。先贴代码（我把我内存超限的算法注释掉了）：

# Read from the file file.txt and print its transposed content to stdout.

#!/bin/bash
#i=1;
#value=$(cat file.txt);
#j=$(echo "$value" | awk 'NR==1{print NF}');
#while [ $i -le $j ]
#do
#    echo "$value" | awk -v x=$i 'ORS=" "{print $x}';
#    let "i += 1";
#    printf "\n";
#done

awk 'BEGIN{
    i=1;
    j=1;
    while(getline < "file.txt") {
        split($0, ft, " ");
        while (j<=NF) {
            array[j, i] = ft[j];
            j = j + 1;
        }
        i = i + 1;
        j = 1;
    }

    for (row=1;row<=NF;row++) {
        for (column=1;column<i;column++) {
            printf array[row, column];
            if (column<i-1) printf " ";
        }
        printf "\n";
    }
}        
'

虽然第一种想法内存超了，但对我也很有意义，所以我想两种算法都讲一点思路。

方法一（内存超限）：同时使用bash和awk

一、我想多次读file.txt，每次都用awk读一列，再修改ORS为空格（默认为换行），使这一列打印在一行。这可能就注定我会内存超限了。
二、有一个很有意思的问题，就是awk不能直接使用shell中的变量，所以我们需要这部分：

awk -v x=$i

如果直接

{print $i}

你会发现print语句打印出所有列，而不是第i列，说明awk得不到i的值！

三、还有个有意思的地方，即

echo "$value"

我之所以不直接在管道前用cat是想减少内存消耗来着，不过好像没用。这里如果没有双引号，那么value中的所有换行符都会消失，变为一行，即value的结构被破坏掉了。加上”“就是保护value的结构。在bash里，常常记得在变量取值时加上”“是个好习惯！
四、余下的地方，例如bash对空格很敏感，只有命令之后可以有空格；例如while语句的条件，中括号和第一个及最后一个变量间一定要有空格；awk的所有语句都要括在’ ‘之间…

方法二：仅用awk!

一、既然内存超限，说明只能读取一次文件，即只能使用一次awk。显然可以想到，用二维数组存储这个文件，然后转置输出就行了。而awk里有二维数组，语句非常简单。
二、那么如何将文件读进来变成二维数组呢？我从这篇文章学到了while按行读取文件，并按空格分割行，得到元素的方法：

while(getline < "file.txt") {
        split($0, ft, " ");
        while (j<=NF) {
            array[j, i] = ft[j];
            j = j + 1;
        }
        i = i + 1;
        j = 1;
    }

三、有趣的注意点：在awk里用print语句打印二维数组时，每一个元素都会被作为一个记录，所以每输出一个元素，会输出一个ORS，即换行符！那我们只要使用printf就可以了！相似的情况还在bash语句里，在bash语句里，printf相比于echo更能满足我们习惯的输出。
四、这里一定要用BEGIN，虽然原因我还不太肯定，但是不用BEGIN的话，执行脚本之后，还需要多ENTER一次，才输出结果。