Word Frequency

本文介绍了一个简单的Bash脚本,该脚本能够读取名为words.txt的文本文件,并统计每个单词出现的频率。脚本将空格作为单词之间的分隔符,并通过一系列的命令如cat、tr、sort、sed和awk来处理文本数据,最终输出按频率降序排列的单词列表。

Write a bash script to calculate the frequency of each word in a text file words.txt.

For simplicity sake, you may assume:

  • words.txt contains only lowercase characters and space ' ' characters.
  • Each word must consist of lowercase characters only.
  • Words are separated by one or more whitespace characters.

 

For example, assume that words.txt has the following content:

the day is sunny the the
the sunny is is

Your script should output the following, sorted by descending frequency:

the 4
is 3
sunny 2
day 1

Note:
Don't worry about handling ties, it is guaranteed that each word's frequency count is unique.

1.这里只是把空格当成了分隔符,如果含有标点符号,还需要把标点符号考虑进去

2.注意sort对出现次数进行排序时需要指定参数-n,表示使用数值方式排序,默认是字符方式(“10”<"2")

cat words.txt | tr ' ' '\n'|sort|sed '/^$/d'|awk '{a[$1]++}END{for(item in a)print item,a[item]}'|sort -k 2 -rn

 

转载于:https://www.cnblogs.com/chybot/p/4486703.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值