192. 统计词频

最新推荐文章于 2024-10-19 10:02:34 发布

Hello_GY

最新推荐文章于 2024-10-19 10:02:34 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：刷刷题文章标签： LeetCode

本文链接：https://blog.youkuaiyun.com/qq_40803710/article/details/81356198

刷刷题专栏收录该内容

28 篇文章

订阅专栏

本文介绍如何使用Bash脚本统计文本文件中各单词的出现频率，并按频率降序排列输出结果。通过一系列Unix管道命令，如cat、tr、sort、uniq及awk等，实现对文本文件words.txt的高效处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。

为了简单起见，你可以假设：

words.txt只包括小写字母和 ' ' 。
每个单词只由小写字母组成。
单词间由一个或多个空格字符分隔。

示例:

假设 words.txt 内容如下：

the day is sunny the the
the sunny is is

你的脚本应当输出（以词频降序排列）：

the 4
is 3
sunny 2
day 1

说明:

不要担心词频相同的单词的排序问题，每个单词出现的频率都是唯一的。
你可以使用一行 Unix pipes 实现吗？

解析：

1、sort语法复习
sort -n 将字符串转数字
sort -r 指定顺序为从大到小
sort -k 2 指定第二个字段作为排序判断标准

tr -s ' ' '\n' 是将所有连续的空格空行删除并保证每一行只有一个字符串
sort | uniq -c 通常一起用来统计重复出现的次数。

cat words.txt | tr -s ' ' '\n' | sort | uniq -c | sort -rn | awk '{print $2, $1}'

2、 awk 是逐行检索文本。分为3的部分。
BEGIN{#这里进行一些检索文本前的初始化操作}
{#这里是对应每一行的操作}。

例如这里 for(i=1;i<=NF;++i){++m[$i]}就是将每一行分隔的字段，进行词频统计。
NF是分隔的字段数。
$0表示整行字符串
$1到$NF表示从分隔的第一个字符串到最后一个字符串
awk中的数组可以用作hashtable做来词频统计。
END{#在检索文本后的操作}
for(k in m) k表示的就是m的key。

awk -F' ' '{for(i=1;i<=NF;i=i+1){print $i}}' words.txt|sort|uniq -c|sort -nr|awk -F ' ' '{printf("%s %s\n", $2, $1)}'