python扫描并处理重复文件

发布时间：2026/6/26 5:17:11

扫描并处理重重复文件importosimportshutilimporthashlibimportchardetimportpandasaspdfromdocximportDocumentfromcollectionsimportdefaultdict# 全局配置区按需修改 SCAN_FOLDERrD:\data\mydata\t_data\test# 需要扫描查重的根目录BACKUP_FOLDERrD:\data\mydata\t_data\_重复文件备份# 重复文件移动备份目录OUTPUT_REPORTrD:\测试文件目录_查重清单.xlsx# 输出查重清单ExcelLOG_PATHrD:\文件扫描日志.txt# 异常日志保存路径MOVE_DUPLICATETrue# 是否自动移动重复文件副本到备份文件夹MAX_FILE_SIZE_MB500# 大于500MB的超大文件跳过哈希计算仅记录SIMILAR_THRESHOLD0.85# 文本相似度阈值大于等于判定高度相似# 跳过扫描的隐藏/系统目录SKIP_DIR_KEYWORDS{$recycle.bin,system volume information,.git,__pycache__}# 不处理的快捷/链接后缀SKIP_SUFFIX{.lnk,.symlink}# 支持提取文本做相似比对的后缀TEXT_SUFFIX{.txt,.csv,.md,.docx,.xlsx,.xls}# 模块1工具基础函数 defget_file_md5(file_path:str,block_size65536)-str: 计算文件MD5哈希值分块读取适配大文件 :param file_path: 文件绝对路径 :param block_size: 单次读取缓冲区大小 :return: md5字符串读取失败返回空字符串 try:md5_objhashlib.md5()withopen(file_path,rb)asf:whilechunk:f.read(block_size):md5_obj.update(chunk)returnmd5_obj.hexdigest()exceptExceptionase:log_msgf【哈希计算失败】{file_path}| 错误{str(e)}write_log(log_msg)returndefget_file_size_mb(file_path:str)-float:获取文件大小MBbyte_sizeos.path.getsize(file_path)returnround(byte_size/1024/1024,3)defwrite_log(msg:str):全局日志写入追加模式withopen(LOG_PATH,a,encodingutf-8)asf:f.write(msg\n)print(msg)defsafe_move_file(src:str,dst_dir:str): 安全移动文件目标存在自动重命名避免冲突 :param src: 原文件路径 :param dst_dir: 目标文件夹 os.makedirs(dst_dir,exist_okTrue)file_nameos.path.basename(src)dst_pathos.path.join(dst_dir,file_name)# 文件存在则循环加后缀区分idx1whileos.path.exists(dst_path):name_no_ext,extos.path.splitext(file_name)dst_pathos.path.join(dst_dir,f{name_no_ext}_副本{idx}{ext})idx1try:shutil.move(src,dst_path)write_log(f【已移动重复文件】原路径:{src}新路径:{dst_path})exceptExceptionase:write_log(f【文件移动失败】{src}错误:{str(e)})# 模块2文本提取函数用于相似文件比对 defextract_file_text(file_path:str,suffix:str)-str: 提取txt/docx/xlsx/csv内全部文本用于相似度判断 :param file_path: 文件路径 :param suffix: 文件后缀小写 :return: 拼接后的纯文本读取失败返回空字符串 full_texttry:ifsuffix.txtorsuffix.csvorsuffix.md:# 自动识别编码读取文本withopen(file_path,rb)asf:raw_dataf.read()encode_infochardet.detect(raw_data)encodeencode_info.get(encoding,utf-8)full_textraw_data.decode(encode,errorsignore)elifsuffix.docx:docDocument(file_path)para_text[p.textforpindoc.paragraphsifp.text.strip()]full_text .join(para_text)elifsuffixin(.xlsx,.xls):dfpd.read_excel(file_path,sheet_nameNone)all_sheet_text[]forsheet_dataindf.values():text_linesheet_data.to_string()all_sheet_text.append(text_line)full_text .join(all_sheet_text)exceptExceptionase:write_log(f【文本提取失败】{file_path}错误:{str(e)})return# 清理空白字符压缩文本减少比对开销full_textfull_text.replace(\n,).replace( ,)returnfull_textdefcalc_text_similarity(text1:str,text2:str)-float:简易文本相似度字符重合度0~1set1set(text1)set2set(text2)ifnotset1andnotset2:return1.0interlen(set1set2)unionlen(set1|set2)returninter/unionifunion!0else0# 模块3目录扫描函数 defscan_all_files(root_dir:str)-list:遍历目录过滤无效文件返回全部有效文件信息列表file_info_list[]forroot,dirs,filesinos.walk(root_dir):# 过滤系统隐藏目录原地修改dirs阻止进入dirs[:][dfordindirsifd.lower()notinSKIP_DIR_KEYWORDS]forfile_nameinfiles:full_pathos.path.abspath(os.path.join(root,file_name))suffixos.path.splitext(file_name)[1].lower()# 跳过快捷方式/链接ifsuffixinSKIP_SUFFIX:continuetry:byte_sizeos.path.getsize(full_path)mb_sizeround(byte_size/1024/1024,3)modify_timeos.path.getmtime(full_path)file_info_list.append({file_path:full_path,file_name:file_name,suffix:suffix,size_mb:mb_size,size_byte:byte_size,modify_time:modify_time})exceptExceptionase:write_log(f【文件信息读取失败】{full_path}错误:{str(e)})write_log(f目录扫描完成共获取有效文件{len(file_info_list)}个)returnfile_info_list# 模块4查重核心分组逻辑 defgroup_duplicate_files(file_info_list:list): 核心查重分组1.按大小分组 2.同大小计算MD5分完全重复组 3.文本相似分组 :return: duplicate_groups 完全重复组列表; similar_groups 高度相似组列表 # 1. 先按文件字节大小分组大小不同直接不可能重复size_groupdefaultdict(list)forinfoinfile_info_list:size_group[info[size_byte]].append(info)# 2. MD5哈希分组完全重复文件组hash_groupsdefaultdict(list)forsize_byte,info_listinsize_group.items():# 单个文件无重复跳过iflen(info_list)1:continueforinfoininfo_list:# 超大文件跳过哈希计算ifinfo[size_mb]MAX_FILE_SIZE_MB:continuemd5_valget_file_md5(info[file_path])ifmd5_val:info[md5]md5_val hash_groups[md5_val].append(info)# 过滤仅单个文件的组duplicate_groups[gforginhash_groups.values()iflen(g)2]# 3. 文本类文件相似度分组非完全重复但内容近似similar_groups[]# 提取所有支持文本比对、且不在完全重复组内的文件text_candidate[]all_dup_pathset()forgroupinduplicate_groups:foritemingroup:all_dup_path.add(item[file_path])forinfoinfile_info_list:ifinfo[suffix]inTEXT_SUFFIXandinfo[file_path]notinall_dup_path:info[text_content]extract_file_text(info[file_path],info[suffix])text_candidate.append(info)# 两两比对相似度used_idxset()total_textlen(text_candidate)foriinrange(total_text):ifiinused_idx:continuegroup_temp[text_candidate[i]]text_itext_candidate[i][text_content]forjinrange(i1,total_text):ifjinused_idx:continuetext_jtext_candidate[j][text_content]simcalc_text_similarity(text_i,text_j)ifsimSIMILAR_THRESHOLD:group_temp.append(text_candidate[j])used_idx.add(j)iflen(group_temp)2:similar_groups.append(group_temp)write_log(f查重完成完全重复文件组{len(duplicate_groups)}组高度相似文件组{len(similar_groups)}组)returnduplicate_groups,similar_groups# 模块5生成输出清单移动重复文件 defgenerate_report_and_handle_dup(duplicate_groups,similar_groups): 1. 生成简易Excel查重清单 2. 可选移动重复副本至备份文件夹 report_rows[]group_id1# 写入完全重复组forgroupinduplicate_groups:base_filegroup[0]# 保留第一个原始文件dup_file_listgroup[1:]# 其余全部判定为重复副本base_pathbase_file[file_path]dup_paths; .join([f[file_path]forfindup_file_list])# 写入报表行row{分组ID:group_id,重复类型:完全重复(二进制一致),主文件(保留):base_path,重复副本文件:dup_paths,文件大小MB:base_file[size_mb],MD5哈希:base_file[md5],文件后缀:base_file[suffix]}report_rows.append(row)# 移动重复副本文件ifMOVE_DUPLICATE:fordup_infoindup_file_list:safe_move_file(dup_info[file_path],BACKUP_FOLDER)group_id1# 写入高度相似组不移动仅人工复核forgroupinsimilar_groups:all_path; .join([f[file_path]forfingroup])row{分组ID:group_id,重复类型:高度相似(文本内容接近),主文件(保留):all_path,重复副本文件:无自动移动建议人工复核,文件大小MB:group[0][size_mb],MD5哈希:不相同,文件后缀:group[0][suffix]}report_rows.append(row)group_id1# 导出简易Excel清单df_reportpd.DataFrame(report_rows)df_report.to_excel(OUTPUT_REPORT,indexFalse)write_log(f查重清单已导出至{OUTPUT_REPORT})# 程序入口主函数 defmain():# 清空历史日志withopen(LOG_PATH,w,encodingutf-8)asf:f.write( 文件查重扫描日志开始 \n)# 1. 扫描全部文件file_infoscan_all_files(SCAN_FOLDER)# 2. 查重分组dup_groups,sim_groupsgroup_duplicate_files(file_info)# 3. 生成报表处理重复文件移动generate_report_and_handle_dup(dup_groups,sim_groups)write_log( 文件查重全部执行完毕 )print(f\n执行完成\n清单文件{OUTPUT_REPORT}\n操作日志{LOG_PATH})ifMOVE_DUPLICATE:print(f重复副本已移动至备份目录{BACKUP_FOLDER})if__name____main__:main()

【通信】ReRAM存储介质中噪声产生机理研究matlab实现

✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。🍎个人主页：Matlab科研工作室🍊个人信条：格物致知。更多Matlab完整代码及仿真定制内容点…

2026/6/26 5:16:51 阅读更多

Usenet 入门指南：一个德国开发者写的保姆级教程

文章目录Usenet 入门指南：一个德国开发者写的保姆级教程Usenet 是什么需要准备什么Provider 选择Indexer 注册下载工具下载流程怎么看文件名自动化部分性能优化项目情况Usenet 入门指南：一个德国开发者写的保姆级教程 GitHub 上有一个专门讲 Usenet 的德…

2026/6/26 5:16:31 阅读更多

企业级AI数字员工技术选型：四个必须深入验证的工程维度

一、问题的起点：AI落地为何频频“货不对板”？ 过去两年，企业级AI市场经历了一轮高速膨胀，但真正将AI融入业务流程并产生可量化收益的案例，远低于市场预期。一个反复出现的现象是：采购时演示效果惊艳&#x…

2026/6/26 5:16:31 阅读更多

SSM 框架实战教程 Thymeleaf 104-106

SSM 框架实战教程 Thymeleaf 104-106 一、参考资料【尚硅谷最新版SSM教程，基于AI的全新ssm框架实战】 https://www.bilibili.com/video/BV14WtLeDEit/?p104&share_sourcecopy_web&vd_source855891859b2dc554eace9de3f28b4528 二、笔记总结 104、页面跳…

2026/6/26 22:55:27 阅读更多

领英 Open to 开放合作信号怎么用？3 步精准锁定正在找供应商的买家

做外贸、B2B 出海开发的从业者都有同一个痛点：海量领英采购联系人，加好友、发私信石沉大海，耗费大量时间却碰不到有真实采购需求的客户。绝大多数人忽略了领英官方自带的Open to 合作开放信号—— 这是海外买家主动释放的采购意向标签&#x…

2026/6/26 22:54:45 阅读更多

IMX6ULL Qt 项目（控制led灯和蜂鸣器）全流程

一、网络搭建（我是连接网线的） 打开虚拟机设置，采用双适配器（一个选用桥接，一个选用NAT）： 然后主机就打开控制面板的网络连接（我们需要的就是以太网2下面的这个NXUSB2.0&#xff09…

2026/6/26 22:53:53 阅读更多

Type-C PD取电方案设计与工程实践

1. 项目概述：Type-C取电的实用价值最近在折腾一个户外移动设备项目时，发现Type-C接口取电真是个宝藏方案。相比传统的Micro USB，Type-C不仅正反插都行，还能支持更大功率的电力传输。现在从手机充电宝到笔记本电脑充电器&#xff0…

2026/6/26 22:53:32 阅读更多

Hitboxer终极指南：彻底告别游戏按键冲突，让你的操作如丝般顺滑

Hitboxer终极指南：彻底告别游戏按键冲突，让你的操作如丝般顺滑【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 你是否曾经在激烈的游戏对决中，因为同时按下左右方向键而导致角…

2026/6/26 22:53:12 阅读更多

高校技术转移中心在推动成果转化时，如何精准识别目标企业的技术需求并提高合作成功率

观点作者：科易网-国家科技成果转化（厦门）示范基地截至2026年05月，最新数据显示，我国科技成果转化仍然面临诸多挑战，如信息不对称、转化周期长、匹配效率低等。为了解决这些问题，数智化转型成为…

2026/6/26 22:53:12 阅读更多

Qwen2.5-Turbo百万上下文实战指南：百炼平台长文本处理全解析

1. 项目概述：这不是一次普通模型更新，而是一次上下文能力的质变跃迁“Qwen2.5-Turbo上线阿里云百炼平台，模型上下文长度扩展至百万tokens”——这句话里藏着三个关键信号：Turbo不是简单提速，而是面向生产环境的工程化重…

2026/6/26 0:00:43 阅读更多

Kotlin的@JvmStatic与@JvmField：与Java互操作的注解

Kotlin作为一门现代编程语言，与Java的互操作性一直是其核心优势之一。为了让Kotlin代码能够无缝对接Java，Kotlin提供了多种注解来优化互操作体验，其中JvmStatic和JvmField是两个关键注解。它们分别用于解决静态成员和字段在Java中的访问问题&…

2026/6/26 0:02:05 阅读更多

AI 驱动下 GEO 与 SEO 融合实战指南

摘要：本文深入探讨了从传统SEO到生成式搜索（GEO）的范式转移，为技术内容创作者揭示了新搜索生态下的挑战与机遇。面对大模型直接生成答案的趋势，单纯的关键词排名已不足以保证流量。文章系统性地提出了三大核心策略&…

2026/6/26 0:02:25 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/26 1:06:03 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/26 1:06:07 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/26 1:06:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/26 12:42:30 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…