192 - Word Frequency

最新推荐文章于 2019-02-21 16:17:00 发布

原创最新推荐文章于 2019-02-21 16:17:00 发布 · 891 阅读

0 ·

CC 4.0 BY-SA版权

LeetCode 同时被 2 个专栏收录

41 篇文章

订阅专栏

shell

3 篇文章

订阅专栏

本文介绍如何使用Bash脚本及Unix管道工具来统计文本文件中各单词的出现频率，并按频率从高到低排序输出。文章还详细解释了awk、sort、uniq等命令的用法。

Write a bash script to calculate the frequency of each word in a text file words.txt.

For simplicity sake, you may assume:

words.txt contains only lowercase characters and space ' ' characters.
Each word must consist of lowercase characters only.
Words are separated by one or more whitespace characters.

For example, assume that words.txt has the following content:

the day is sunny the the
the sunny is is

Your script should output the following, sorted by descending frequency:

the 4
is 3
sunny 2
day 1

Note:
Don't worry about handling ties, it is guaranteed that each word's frequency count is unique.

[show hint]

Hint:
Could you write it in one-line using Unix pipes?

Subscribe to see which companies asked this question

思路分析：

知识点：

BEGIN和END:
在Unix awk中两个特别的表达式，BEGIN和END，这两者都可用于pattern中（参考前面的awk语法），提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作。
任何在BEGIN之后列出的操作（在{}内）将在Unix awk开始扫描输入之前执行，而END之后列出的操作将在扫描完全部的输入之后执行。因此，通常使用BEGIN来显示变量和预置（初始化）变量，使用END来输出最终结果。

NR - Number of Record - 当前处理的行是第几行（因为awk是流处理工具，一行一行处理的，所以NR在不停的自增1)

FNR - File Number of Record - 当前处理的行是当前处理文件的第几行
NF - Number of Fileds - 当前行有多少列数据（这个在每行都会根据设定的分割符重新计算，默认分割符是任意连续的多个空白符）
(NR==FNR) 大致等效于 (ARGIND==1) , 一般用来判断是不是在处理第一个文件。
但区别是：前者是判断当前处理的总行数跟文件内行数相等，而这种情况一般都是在第一个文件上，而ARGIND==1是参数位置第1的文件时生效。—— 但，如果前面的文件是空的，那么NR==FNR就生效于第一个非空文件，而ARGIND==1不会。这微妙的区别使它们可以应用于不同的需要。
实际使用中还可以用文件名判断当前处理的是哪一个文件。
上面几种使用的环境：用awk连续处理多个文件时，比如 awk '命令序列' file1 file2 file* 这样的情况下，判断在处理哪个文件了。

数组得下表是字符串

awk '{for(i=1;i<=NF;i++){a[$i]++;count++}} END{for(j in a){print j,a[j]}}' words.txt | sort -k 2 -nr

解法二：

tr -s "\t| " "\n" <words.txt|sort |uniq -c | sort -k1 -r|awk '{print $2,$1}'

tr -s "\t| " "\n" <words.txt 将文件里面的tab或者空格统一替换成换行
|sort 排序
|uniq -c 去重，并且显示每个单词出现的数量
| sort -k1 -r 按照单词出现的数量进行逆序排序
|awk '{print $2,$1}' 交换第一列和第二列的位置（因为uniq出来的结果数量是在前面的）