linux统计txt文件中单词出现次数并排序

最新推荐文章于 2025-06-16 14:33:57 发布

原创最新推荐文章于 2025-06-16 14:33:57 发布 · 3k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#linux #统计次数 #文件排序 #shell

linux 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一种使用sed、sort和uniq命令组合处理文本文件的方法，通过实例演示了如何统计文件中每个单词的出现频率并按降序排列。此技巧适用于快速分析文本数据集，对文本处理和数据统计感兴趣的读者尤为适用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文件：a.txt

任务：统计该文件中每一个单词出现的次数，并按照出现频率从大到小排序

sed 's/ /\n/g' "a.txt" | sort | uniq -c | sort -nr

解析：

sed替换

sed 's/被替换的字符串/新字符串/[替换选项]' filename

替换选项g表示替换文本中所有出现被替换字符串之处

uniq统计次数

uniq -c表示打印每行在文本中重复出现的次数

sort排序

-n根据数字大小进行排序

-r将排序结果逆向显示

增强版：

sed -e 's/\?//g' -e 's/ /\n/g' "test.txt" | sort | uniq -c | sort -nr

test.txt文件为：hello mylove i love you how about you do you love me?

当sed包含多个命令时，需要用-e分隔开来，第一个表示过滤掉文件中的"?"再进行计算。

输出结果为：

      3 you
      2 love
      1 mylove
      1 me
      1 i
      1 how
      1 hello
      1 do
      1 about

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

风影楼c

关注关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

初探map()——对一个文件进行统计其中各个单词出现的次数，并按次数从高到低的顺序进行排序

kendralove的博客

04-05

3860

用上篇文章的排序方法可以很方便的实现这个功能代码如下： #include #include #include #include #include using namespace std; typedef pair PAIR; struct CmpByKeyLength { bool operator()(const string& k1, const string& k2) { if

从一个文件中统计每个单词的次数，排序输出

Jarvan_LT的博客

04-01

740

思路：读取文件并按行输出用正则表达式去匹配单词，并用TreeMap保存匹配到的数据转化为List，定义一个比较器，用Collections.sort对其进行排序 TreeMap本身会对Key进行排序，除了Key的类内部已经实现了比较接口外（比如Integer，String），其他类需要自己定义一个比较器，进行排序；没必要再转成List后排序。 public class FileWordCount { public void count() throws IOException{

参与评论您还未登录，请先登录后发表或查看评论

linux中查询字符串在文件中出现的次数

热门推荐

liumeifang

06-06

1万+

//介绍：//InputStream 是所有字节输入流的超类，一般使用它的子类：FileInputStream等，它能输出字节流；其他地方往应用程序输入数据，也就是从其他位置读取数据在应用程序中；//InputStreamReader是字节流与字符流之间的桥梁，能将字节流输出为字符流，并且能为字节流指定字符集，可输出一个个的字符。//FileInputStream 继承于InputStream 用...

Linux中求文本中单词出现的频率

alian

05-17

1726

文本的words.txt the day is sunny the the the sunny is is 1. 思路一 1.1 先进行拆分，tr命令 Linux tr 命令用于转换或删除文件中的字符。命令格式： tr [-cdst][--help][--version][第一字符集][第二字符集] 重要参数： -c, --complement：反选设定字符。也就是符合 SET1 的部份不做处理，不符合的剩余部份才进行转换 -d, --delete：删除指令字符 -s, --squee

Scala应用篇二：读取同一文件夹中的所有文件，并统计文件中各单词出现频率（spark）

qq_50868643的博客

03-29

3525

Scala词频统计！！

Linux 编写一个Shell脚本，读取一个文本文件，统计文件中每个单词出现的次数，并输出结果（按字母顺序排序）

11-04

在Linux中，我们可以使用`sort`, `uniq`, 和 `awk` 命令结合来实现一个简单的shell脚本，用于统计文本文件中每个单词出现的次数并按字母顺序排序。以下是一个基本的脚本示例： ```bash #!/bin/bash # 确保脚本有...

【Shell牛客刷题系列】SHELL9 统计每个单词出现的个数：一起学习sort排序命令和uniq去重命令

一起加油~

10-11

1473

本文首先学习了对文件内容进行排序的sort命令和去除文件中重复内容的uniq命令；然后结合相关知识给出了三种题目的解决方案。

linux统计文件中单次出现次数

04-22

其中，sort命令排序，uniq -c命令去重并统计每个单词出现次数。 3. 如果要按照出现次数从大到小排序，可以添加一个reverse参数： ``` grep -o 'hello' file.txt | sort | uniq -c | sort -k1nr ``` 其中，-k1表示...

Linux统计单词次数并按次数排序

fallish的技术Blog

03-28

1万+

前提：文件中每一行为一个单词 sort filename | uniq -c| sort -nruniq: -c 输出重复次数 sort: -n 按照数值比较排序 -r 逆序输出结果

Linux awk+uniq+sort 统计文件中某字符串出现次数并排序

qq_34693104的博客

08-20

1043

在服务器开发中，我们经常会写入大量的日志文件。有时候我们需要对这些日志文件进行统计。Linux中我们可以利用以下命令简单高效的实现这一功能。需要用到的命令简介 cat命令 cat命令主要有三大功能 1.一次显示整个文件 cat filename 2.创建一个文件 cat > fileName 3.将几个文件合并为一个文件 cat file1 file2 > file 参数： -n 或...

linux统计文档中字符串出现次数并排序（grep_sort_uniq）

万博的博客

09-01

6727

linux统计文件单词数,利用awk计算文件的单词数量及排序

weixin_39517241的博客

04-28

485

[root@oldboy awk]# awk 'BEGIN{RS="(:|\n)"} {print $0}' /etc/passwd |sort|uniq -c|sort -r26 x20 /sbin/nologin6 064 /sbin4 /3 /bin/bash2 uucp2 sync2 shutdown2 root2 operator2 mail2 lp2 halt2 gopher2 gam...

Linux操作系统实验 | 第二章 | 实验三多线程实现单词统计工具

weixin_53249168的博客

12-20

1143

允许线程使用互斥锁来修改临界资源，确保线程间的同步与协作。如果两个线程需要安全地共享一个公共计数器，需要把公共计数器加锁。线程需要访问称为互斥锁的变量，它可以使线程间很好地合作，避免对于资源的访问冲突。区分单词原则:凡是一个非字母或数字的字符跟在字母或数字的后面，那么这个字母或数字就是单词的结尾。4.创建两个含英文单词的txt文件。多线程实现单词统计工具。输出结果如下图所示。

linux统计文件单词数,Linux怎么统计文本的的行数/单词数和字符数?

weixin_42324688的博客

04-28

3432

Linux系统中想要统计文本的行数、单词和字符数量，该怎么统计呢？我们可以使用SecureCRT来统计，下面我们就来看看详细的教程。1、启动Linux系统，用SecureCRT(或者其他的ssh工具，如xshell等)连上Linux系统。也可以在Linux操作系统上直接操作，在Linux系统上打开终端。2、在终端输入wc，看Linux系统上是否安装过wc命令(若没有安装wc名，请百度wc怎么安装，...

操作系统 Linux多线程单词统计

qq_45852341的博客

10-31

1066

设计任务从网上下载一些英文小说，用多线程实现单词总数的统计。统计单词出现频率并从中找出Top10热词。用单线程实现以上功能，并比较单线程和多线程的时间效率。 #include <stdio.h> #include <stdlib.h> #include <pthread.h> #include <unistd.h> #include <semaphore.h> #include <string.h> #include <ve

Linux实验全纪录之多线程实现单词统计工具

coin06的博客

05-13

4193

#include <stdio.h> #include <pthread.h> #include <ctype.h> #include <stdlib.h> pthread_mutex_t counter_clock=PTHREAD_MUTEX_INITIALIZER; int main(int ac,char *av[]) { void ...