sed 和grep 统计/etc/init.d/functions文件中每个单词的出现次数，结果不同

最新推荐文章于 2025-04-26 15:33:09 发布

原创最新推荐文章于 2025-04-26 15:33:09 发布 · 1.8k 阅读

CC 4.0 BY-SA版权

文章标签：

4 篇文章

订阅专栏

4 篇文章

订阅专栏

本文探讨了如何使用grep和sed统计/etc/init.d/functions文件中每个单词的出现次数。通过举例说明，发现grep的-o选项可以过滤出单词，而sed在处理时遇到困难，因为其正则表达式难以实现单词的精确筛选，导致结果包含非单词的多个字母。作者寻求使用sed过滤非单词的方法。

题目：统计/etc/init.d/functions文件中每个单词的出现次数，并排序（用grep和sed两种方法分别实现）

egrep -o "\<[[:alpha:]]+\>" /etc/init.d/functions |sort |uniq -c |sort -n

这里写图片描述
结果太多，只截后面一部分的

sed -r 's@[^[:alpha:]]+@\n@g' /etc/init.d/functions |sort |uniq -c |sort -n

这里写图片描述
结果太多，只截后面一部分的

这里写图片描述

1.sed如果要对一行中的多个单词进行正向截取很难
因为，截取时使用
's@.*[^[:alpha:]](\<[[:alpha:]]+\>).*@\1@p'
一行只能替换出一个单词

2.所以只能进行反向替换，把不是单词的替换为换行符/n。

a.单词是有**分隔符隔开**的多个英文字母
例如（ 空格 -  引号  ）等

4.把**不是单词**的字符替换为空
即 **不是单词**---->   **不是**\<[[:alpha:]]+\>   ;

5.可是使用sed正则只能表示
不是多个字母 —-> [^[:alpha:]]+

6.所以使用sed后果就是把不是多个字母替换为换行了，
剩下的是单词和 非单词的多个字母

会出现类似以下的情况

echo "w(or4d)hi hello"| sed  -r 's@[^[:alpha:]]+@\n@g'

这里写图片描述
只有 hello是单词，可是把不是单词的英文字母也截取出来了

这里写图片描述