linux命令对两个文件求差集、交集、并集

原创已于 2024-01-19 14:48:11 修改 · 7.2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#linux #运维 #服务器

于 2021-12-25 18:44:36 首次发布

随笔专栏收录该内容

20 篇文章

订阅专栏

本文介绍了如何使用Unix命令对user_2020.txt和user_2019.txt文件进行差集、交集和并集操作，包括sort、uniq和diff等工具的应用。通过实例演示了如何获取新域名、重复项去重和全量合并。这些技巧在数据处理和域分析中十分实用。

一、差集

有两个文件user_2020.txt、user_2019.txt

其中user_2020.txt中内容如下：

uuu
aaa
bbb
111

user_2019.txt中内容如下：

eeeee
aaa
bbb
ccc
aaa

示例一：求user_2020.txt - user_2019.txt的差集命令

sort user_2020.txt user_2019.txt user_2019.txt| uniq -u

结果如下：

111
uuu

示例二：求user_2019.txt - user_2020.txt的差集命令

sort user_2019.txt user_2020.txt user_2020.txt| uniq -u

结果如下：

ccc
eeeee

应用说明：如果有个大文件domain_total.txt，其中包含已知全部的域名数据，新来的域名domain_2020.txt，则获取新增的域名的操作如下：

 sort domain_2020.txt domain_total.txt domain_total.txt ｜ uniq -u

求的即使本次新增的域名。

二、交集

 sort user_2019.txt user_2020.txt| uniq -d

结果如下（注意：单行文本中不能包含特殊字符，否则上述命令会失效，例如 1.0.0.1类似的IP去重，可以使用sed等命令将特殊字符替换掉后再求交集）：

aaa
bbb

三、并集

sort user_2019.txt user_2020.txt| uniq

111
aaa
bbb
ccc
eeeee
uuu

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dkgee

关注关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

求两个文件交集和差集的方法及编程实现

CodeRoarX的博客

09-27

409

在Linux Shell环境下，我们可以使用一些命令和技巧来求解两个文件的交集和差集。下面将介绍两种常见的方法：使用sort和comm命令以及使用awk命令。

Linux 两个文件求交集、并集、差集

javaTalk

03-25

1493

目录一交集二并集三差集四参考文档如图所示，图左为 a.txt，图右为 b.txt。一交集命令： sort a.txt b.txt | uniq -d > c.txt 结果： -d ：显示重复出现的行列二并集命令：...

参与评论您还未登录，请先登录后发表或查看评论

Linux求文件差集

a3amux18550的博客

04-07

197

grep -F -f listb lista -v 可以求差集A-B 转载于:https://www.cnblogs.com/ITEagle/archive/2013/04/07/3003611.html

linux求两个列的交集并集差集

qq_34786604的博客

11-04

909

我们经常需要快速的知道两个列。一般这两个列是。我们想看看他们的逻辑情况（交集并集差集）

Linux 求文件交集差集等

weixin_34364135的博客

07-29

216

使用comm命令假设两个文件FILE1和FILE2用集合A和B表示，FILE1内容如下： a b c e d a　　 FILE2内容如下： c d a c 基本上有两个方法，一个是comm命令，一个是grep命令。分别介绍如下： comm命令， Compare sorted files FILE1 and FILE2 line by l...

linux求两个文件的差集,linux 两个文件取交集命令

weixin_28481133的博客

04-28

343

有两个文件a和b，a中包含b中所有数据。需要找出a文件中包含b文件内容的数据。具体操作如下：a.txt文件http://www.simonzhang.net/msg?phone=12320421&msg=hfeafhttp://www.simonzhang.net/msg?phone=13219543&msg=efweff3http://www.simonzhang.net/msg...

Linux实现文件内容去重及求交并差集

09-14

本篇文章将深入探讨如何使用Linux命令行工具来实现文件内容的去重以及求交集、并集和差集。一、数据去重在大数据处理中，重复数据是一个普遍存在的问题。Linux提供了`uniq`命令来去除文件中的重复行。首先，我们...

python全栈开发《60.获取两个集合的差集》

清菡的博客

11-07

426

目录1.什么是差集2.difference的功能3.difference的用法4.代码1.什么是差集a，b两个集合，由所有属于a且不属于b的元素组成的集合叫做a与b的差集。集合a：1，2，3，4集合b：3，4，5，6以a为焦点来看。1、2就是a与b的差集。2.difference的功能返回集合的差集，即返回的集合元素包含在第一个集合中，但不包含在第二个集合中。3.difference的用法a_se...

centos6.8 查看两个文件的交、并、差集

大圣欲何的博客

11-29

1185

很少用到，长时间不用回忘记，记录一下。有两个文件/mnt/file 和 /mnt/files [root@vm1_185 mnt]# cat file hello world ! hello everybody ! hello basketball ! hello kobebryant ! [root@vm1_185 mnt]# cat files hello world ! hell...

数据合集、并集和差集的产生（seq、cat、sort和uniq的综合使用）

weixin_43960055的博客

11-03

1552

合集、并集和差集（seq、cat和uniq的综合使用）不多废话，直接就上代码。 seq 1 10 产生1，2，… ，10 十个数据（默认步长为1），各个数据换行显示。 seq ‘ ’ 1 10 产生1，2，…，10 十个数据（默认步长为1），数据之间空一格显示。 (seq 0 3 17) >test1 从0到17之间，按照步长3选取数据。 cat test1 浏览test1文件内容。 (seq 3 6 18) >test2 从3到18之间，按照步长6选取数据，并命名为test2。 cat

linux求两个文件的差集,Linux 求文件交集差集等

weixin_39821874的博客

04-28

426

使用comm命令假设两个文件FILE1和FILE2用集合A和B表示，FILE1内容如下：abcedaFILE2内容如下：cdac基本上有两个方法，一个是comm命令，一个是grep命令。分别介绍如下：comm命令， Compare sorted files FILE1 and FILE2 line by line. With no options, produce three-column o...

linux求两个文件的差集,Linux求两个文本文件的交集、差集、并集

weixin_33171065的博客

04-28

283

原标题：Linux求两个文本文件的交集、差集、并集一、交集sort a.txt b.txt | uniq -d二、并集sort a.txt b.txt | uniq三、差集a.txt-b.txt:sort a.txt b.txt b.txt | uniq -ub.txt - a.txt:sort b.txt a.txt a.txt | uniq -u四、相关的解释使用sort可以将文件进行排序(s...

Linux Shell下求两个文件的交集差集

beiyouyu的专栏

07-27

9733

经常会用到比较两个文件中相同行的数量，也就是把文件当作集合，求集合的交集差集等。假设有两个文件a.file和b.file，分别代表集合A和集合B。 a.file的内容如下： a b c d e b.file的内容如下： c d e f g 可选用的命令有两个，comm和grep。分别介绍下： comm命令 comm命令可以求出两个文件的比较结果。默认输

高级shell扩展---uniq命令

panbuhei

11-06

438

uniq uniq 命令用于检查及删除文本文件中重复出现的行列，一般与 sort 命令结合使用。语法 uniq [-cdu][-f<栏位>][-s<字符位置>][-w<字符位置>][--help][--version][输入文件][输出文件] 参数： -c或--count 在每列旁边显示该行重复出现的次数。 -d或--repeated 仅显示重复出现的行列。 -f<栏位>或--skip-fields=<栏位> 忽略比较指定的栏位。 -s<

linux文件交集差集

夜宿荒寺

08-19

1036

文件的交集，差集

Linux中求文件差集的方法

victorunique的专栏

01-15

901

求集合A与集合B的差集方法1:sort B B A | uniq -u方法2:grep -vFf file_b file_a

linux下求文件的差集

weixin_33882452的博客

02-28

108

grep -F -v -f a.txt b.txt | sort | uniq 通过grep命令，可以求得b.txt中去除a.txt后的内容。比如b.txt 1 2 3 a.txt 1 则该命令内容为 2 3 转载于:https://www.cnblogs.com/mikewolf2002/archive/2013/02/28/2936165.html...

linux命令求两个文件的交集、差集、并集等

记录点滴的专栏

10-10

2022

LANG=C;sort file1 file2 | uniq 两个未排序文件的并集 LANG=C;sort file1 file2 | uniq -d 两个未排序文件的交集 LANG=C;sort file1 file1 file2 | uniq -u 两

linux如何对比两个文件重复的行

最新发布

11-21

<think> 首先，用户的问题是基于提供的引用内容：他们想知道在Linux系统中如何对比两个文件的重复行。引用中提到了几种方法，比如使用comm命令、grep、while循环等。我的回答需要遵循系统级指令： - 所有行内数学表达式用$...$格式。但这个问题是关于Linux命令的，可能不涉及数学，所以可能用不到，但如果有变量或代码，我会正确格式化。 - 独立公式用$$...$$格式。同样，可能不适用。 - LaTeX语法正确：确保任何数学或代码格式正确。 - 使用中文回答：整个回答必须用中文。 - 生成相关问题：在回答结束后，添加相关问题，就像示例中的"§§相关问题§§"。 - 回答中引用的段落末尾添加引用标识：例如[^1]。引用来自提供的引用内容，如引用[1]到[^5]。 - 回答结构清晰：逐步解决问题，确保可靠。用户的问题："我想查找在Linux系统中对比两个文件重复行的方法请问Linux系统中对比两个文件重复行的方法" 从引用中，关键点： - 引用[2]详细讨论了比较两个文件行的方法，包括while循环、for循环、grep和comm命令。 - 引用[5]提到了删除重复行的方法，但焦点是单个文件。 - 其他引用如[1]和[4]是关于查找和删除重复文件的，不是直接比较两个文件的重复行。 - 引用[3]是关于文件合并和交集。所以，核心是引用[2]的内容： - while遍历文件行比较。 - for遍历文件行比较（注意IFS设置）。 - grep方法。 - comm命令（推荐为最快最好用）。 comm命令特别有效：comm -12 file1 file2 输出两个文件的交集，即重复行。回答结构： 1. 介绍问题：解释用户的需求。 2. 逐步介绍方法： - 使用comm命令（最简单高效）。 - 使用grep命令。 - 使用shell循环（如while或for）。 - 可能提到其他方法。 3. 确保每个方法有代码示例或命令格式。 4. 添加引用标识：在相关部分末尾添加，如[^2]。生成相关问题： - 在回答结束后，添加"§§相关问题§§"，然后列出2-3个相关问题，类似于示例。相关问题想法： 1. 如何只输出不重复的行？ 2. comm命令的其他用法？ 3. 如何忽略大小写或空格进行比较？ 4. 性能优化建议？确保回答真实可靠：基于提供的引用和我的知识。comm命令确实是标准工具。最终回答大纲： - 开头：直接回答用户问题。 - 方法1: comm命令。[^2] - 方法2: grep命令。[^2] - 方法3: shell循环方法。[^2] - 简要比较。 - 结束语。 - §§相关问题§§ 用中文写。 </think> ### Linux系统中对比两个文件重复行的方法在Linux系统中，对比两个文件的重复行（即找出同时存在于两个文件中的行）是常见的任务。基于您提供的引用内容（特别是引用[2]），我将逐步解释四种可靠的方法，包括命令示例和注意事项。这些方法都基于标准Linux命令，如`comm`、`grep`和shell循环。以下是详细说明： #### 1. **使用`comm`命令（推荐方法，高效且简单）** - **原理**：`comm`命令专门用于比较两个已排序的文件，输出交集（重复行）、差集或并集。选项`-12`表示只输出两个文件共有的行（即重复行）。 - **命令格式**： ```bash sort file1.txt | uniq > sorted_file1.txt # 先对文件排序并去重（可选） sort file2.txt | uniq > sorted_file2.txt comm -12 sorted_file1.txt sorted_file2.txt ``` - `comm -12`：`-1`隐藏第一个文件独有的行，`-2`隐藏第二个文件独有的行，因此`-12`只显示公共行。 - **注意**：输入文件必须先排序，否则结果可能不准确。使用`sort`命令预处理文件。 - **示例**：假设`file1.txt`内容为`A\nB\nC`，`file2.txt`内容为`B\nC\nD`，运行`comm -12`会输出`B\nC`。 - **优点**：执行速度快，适合大型文件[^2]。 - **相关引用**：comm命令被描述为“该命令最快，最好用”[^2]。 #### 2. **使用`grep`命令（灵活但稍慢）** - **原理**：`grep`可以搜索一个文件中的行是否存在于另一个文件中。使用`-F`选项进行固定字符串匹配，避免正则表达式开销。 - **命令格式**： ```bash grep -F -f file1.txt file2.txt # 输出file2.txt中与file1.txt匹配的行 ``` - `-f file1.txt`：从file1.txt读取模式。 - `-F`：将模式视为固定字符串，提高性能。 - 如果您需要输出重复行到新文件，添加重定向：`grep -F -f file1.txt file2.txt > duplicates.txt`。 - **注意**：如果文件有特殊字符，使用`\b`或`\< \>`进行单词边界匹配（如`grep "\<word\>"`）。此方法不需要文件排序，但大文件时可能较慢[^2]。 - **示例**：运行`grep -F -f file1.txt file2.txt`会输出所有重复行。 - **优点**：支持部分匹配，适合复杂场景。 #### 3. **使用Shell循环（如`while`或`for`，适合小文件或自定义处理）** - **原理**：通过shell脚本逐行读取文件并进行比较。引用[2]提供了两种方法： - **`while`循环**：逐行读取文件，嵌套比较。 ```bash while read lineb; do while read linea; do if [ "$lineb" = "$linea" ]; then # 注意变量加引号避免空格问题 echo "$lineb" >> duplicates.txt fi done < file2.txt done < file1.txt ``` - **`for`循环（需设置IFS）**：处理空格等分隔符。 ```bash IFS=$'\n' # 设置域分隔符为换行符 for i in $(cat file1.txt); do for j in $(cat file2.txt); do if [[ "$i" == "$j" ]]; then echo "$i" >> duplicates.txt fi done done ``` - **注意**： - 变量比较时，必须加双引号（如`"$lineb"`），否则空格会导致错误。 - IFS设置是必要的，以防止shell将空格视为分隔符。 - **缺点**：性能较差，文件大时效率低，仅推荐小文件或特殊需求[^2]。 - **优点**：脚本灵活，可添加额外逻辑（如计数或过滤）。 #### 4. **其他方法（简要参考）** - **`awk`或`sed`**：引用[5]提到使用`awk`或`sed`处理单个文件的重复行（如`sort file.txt | awk '!a[$0]++'`），但扩展到两个文件较复杂，不如以上方法直接。 - **工具如`fdupes`**：引用[4]提到`fdupes`用于查找重复文件，但它是基于文件内容哈希，不是逐行比较，不适用于本场景。 #### 方法比较与建议 - **效率**：`comm`命令最快（尤其对大型文件），其次是`grep`，shell循环最慢。 - **准确性**：所有方法默认区分大小写和空格；如需忽略大小写，在命令中添加选项如`grep -i`或`comm`前用`tr '[:upper:]' '[:lower:]'`预处理。 - **通用步骤**： 1. 备份文件以防误操作。 2. 预处理：使用`sort`和`uniq`去除文件内重复行（可选）。 3. 选择合适方法运行命令。 4. 输出结果保存到文件（如`> duplicates.txt`）。通过以上方法，您可以高效地对比Linux系统中的文件重复行。如果需要更多细节或处理特殊情况，请参考相关命令手册（`man comm`或`man grep`）[^2][^5]。