文章作者:Tyan
博客:noahsnail.com | CSDN | 简书
1. 引言
在Linux系统处理数据时,经常会遇到删除重复文件的问题。例如,在进行图片分类任务时,希望删除训练数据中的重复图片。在Linux系统中,存在一个fdupes
命令可以查找并删除重复文件。
2. Fdupes介绍
Fdupes是Adrian Lopez用C语言编写的Linux实用程序,它能够在给定的目录和子目录集中找到重复文件,Fdupes通过比较文件的MD5签名然后进行字节比较来识别重复文件。其比较顺序为:
大小比较 > 部分MD5签名比较 > 完整MD5签名比较 > 字节比较
3. 安装fdupes
以CentOS系统为例,fdupes
的安装命令为:
1 | sudo yum install -y fdupes |
4. fdupes的使用
删除重复文件,并且不需要询问用户:
1 | $ fdupes -dN [folder_name] |
其中,-d
参数表示保留一个文件,并删除其它重复文件,-N
与-d
一起使用,表示保留第一个重复文件并删除其它重复文件,不需要提示用户。
使用说明:
1 | $ fdupes -h |