别再只用os.listdir了！Python文件遍历，用glob模块这5个技巧更高效

发布时间：2026/6/10 12:06:05

解锁Python文件遍历新姿势glob模块的5个高阶技巧在Python开发者的日常工作中文件遍历几乎是无法绕开的任务。无论是日志分析、数据集整理还是自动化测试我们都需要频繁地与文件系统打交道。很多开发者习惯性地使用os.listdir()或手动递归来处理这些需求却不知道Python标准库中隐藏着一个更强大的工具——glob模块。1. 为什么glob比传统方法更值得选择1.1 os.listdir的局限性os.listdir()是大多数Python开发者接触的第一个文件遍历方法。它简单直接返回指定路径下的所有文件和子目录列表。但在实际项目中我们很快就会发现它的不足import os # 基本用法 files os.listdir(data/) print(files) # 输出所有文件和目录需要额外处理才能区分主要问题包括无法直接过滤文件类型需要手动处理路径拼接不支持递归遍历子目录缺乏模式匹配能力1.2 os.walk的复杂性当需要递归遍历目录时很多开发者会转向os.walk()for root, dirs, files in os.walk(data/): for file in files: if file.endswith(.csv): print(os.path.join(root, file))虽然功能强大但存在以下痛点代码冗长需要多层循环过滤逻辑需要手动实现返回结构复杂三个列表模式匹配能力有限1.3 glob的优雅解决方案相比之下glob模块提供了更简洁的APIimport glob # 简单匹配 csv_files glob.glob(data/*.csv) print(csv_files) # 直接得到匹配的完整路径列表 # 递归匹配 all_csv glob.glob(data/**/*.csv, recursiveTrue)优势对比表特性os.listdiros.walkglob单层遍历✓✓✓递归遍历✗✓✓内置模式匹配✗✗✓路径自动拼接✗✓✓代码简洁度中等复杂简单返回结果直接可用度低中高2. glob的5个高阶技巧2.1 递归通配符一键遍历所有子目录**是glob中最强大的通配符之一配合recursiveTrue参数可以实现全目录递归搜索# 查找项目中的所有Python文件 py_files glob.glob(**/*.py, recursiveTrue) # 查找特定子目录下的图片 images glob.glob(static/**/*.jpg, recursiveTrue)注意在Windows系统中路径分隔符会自动转换为反斜杠但模式匹配中应始终使用正斜杠(/)2.2 字符集匹配精准定位特定文件glob支持类似正则表达式的字符集匹配但语法更简单# 匹配log2021.log到log2029.log decade_logs glob.glob(logs/log202[1-9].log) # 匹配test1.py到test9.py single_digit_tests glob.glob(tests/test[1-9].py) # 匹配a.txt或b.txt但不包括c.txt select_files glob.glob(data/[ab].txt)字符集规则[abc]匹配a、b或c[a-z]匹配任何小写字母[0-9]匹配任何数字[!a]匹配非a的字符2.3 问号通配符固定长度模糊匹配当你知道文件名长度但不确定具体字符时?通配符非常有用# 匹配所有3字符名称的CSV文件 three_char_csv glob.glob(data/???.csv) # 匹配img_后面跟2个字符的PNG图片 specific_images glob.glob(images/img_??.png)2.4 组合模式构建复杂匹配逻辑通过组合不同的通配符可以创建复杂的匹配模式# 匹配2020-2029年每月的数据文件 yearly_data glob.glob(data/202[0-9]-[01][0-9].csv) # 匹配以test开头接着是1-5的数字最后是_a或_b的.py文件 complex_test glob.glob(tests/test[1-5]_[ab].py)2.5 与pathlib结合面向对象的优雅操作Python 3.4引入了pathlib模块它与glob完美配合from pathlib import Path # 使用Path对象的glob方法 py_files list(Path(.).glob(**/*.py)) # 更复杂的匹配 images list(Path(static).glob(*.[pj][np]g)) # 匹配.png和.jpgpathlibglob的优势链式调用更流畅路径操作更安全返回的是Path对象而非字符串跨平台兼容性更好3. 性能优化与实战技巧3.1 缓存机制提升重复查询速度对于需要多次执行相同glob模式的情况可以预先编译模式import glob import fnmatch pattern data/*.csv matcher fnmatch.translate(pattern) # 转换为正则表达式 compiled re.compile(matcher) # 后续使用编译后的模式进行匹配 [csv for csv in os.listdir(data) if compiled.match(csv)]3.2 处理大型目录结构的策略当处理包含数万文件的目录时可以考虑使用iglob替代glob获取生成器而非列表large_files glob.iglob(big_data/**/*.log, recursiveTrue) for file in large_files: process(file)分批次处理batch_size 1000 files list(glob.iglob(huge_dir/**/*.json, recursiveTrue)) for i in range(0, len(files), batch_size): batch files[i:ibatch_size] process_batch(batch)3.3 常见陷阱与解决方案问题1隐藏文件被忽略glob默认不匹配以点开头的文件Unix隐藏文件解决方法# 匹配包括隐藏文件在内的所有文件 all_files glob.glob(.*) glob.glob(*)问题2跨平台路径分隔符Windows使用反斜杠而Unix使用正斜杠最佳实践# 总是使用正斜杠编写模式 files glob.glob(data/**/*.csv, recursiveTrue) # 需要处理路径时使用os.path或pathlib import os.path full_path os.path.join(data, subdir, file.csv)问题3符号链接循环递归遍历时可能遇到符号链接导致的无限循环防护措施def safe_glob(pattern): seen set() for file in glob.iglob(pattern, recursiveTrue): real_path os.path.realpath(file) if real_path not in seen: seen.add(real_path) yield file4. 真实项目应用案例4.1 日志分析系统假设我们需要分析分布在多个目录中的服务器日志def analyze_logs(): log_patterns [ /var/log/app/*.log, /var/log/app/archive/**/*.log, /var/log/app/*/error_*.log ] for pattern in log_patterns: for log_file in glob.iglob(pattern, recursiveTrue): with open(log_file) as f: process_log(f.read())4.2 图片资源整理整理散落在不同目录的图片资源def organize_images(target_dirorganized_images): image_exts [*.jpg, *.png, *.gif] os.makedirs(target_dir, exist_okTrue) for ext in image_exts: for img_path in glob.iglob(f**/{ext}, recursiveTrue): date get_image_date(img_path) # 假设的函数 dest_dir os.path.join(target_dir, date) os.makedirs(dest_dir, exist_okTrue) shutil.copy2(img_path, dest_dir)4.3 自动化测试发现动态发现并运行测试用例def discover_tests(): test_files glob.glob(tests/**/test_*.py, recursiveTrue) for file in test_files: module_name file.replace(/, .).replace(\\, .)[:-3] __import__(module_name) # 动态导入测试模块4.4 数据管道构建构建数据处理管道时收集输入文件class DataPipeline: def __init__(self, input_patterns): self.input_files [] for pattern in input_patterns: self.input_files.extend(glob.glob(pattern, recursiveTrue)) def process(self): for file in self.input_files: data load_data(file) # 假设的数据加载函数 transformed transform(data) save_results(transformed)5. 进阶模式与替代方案5.1 自定义匹配函数当内置模式不能满足需求时可以结合过滤函数def find_recent_files(pattern, days7): now time.time() cutoff now - days * 86400 for file in glob.iglob(pattern, recursiveTrue): if os.path.getmtime(file) cutoff: yield file5.2 与正则表达式结合对于更复杂的匹配需求可以将glob与re模块结合import re def glob_re(pattern, string): # 将glob模式转换为正则表达式 regex fnmatch.translate(pattern) return re.fullmatch(regex, string) is not None # 使用示例 files [f for f in os.listdir() if glob_re(data_[0-9][0-9].csv, f)]5.3 替代方案对比虽然glob很强大但某些场景下其他工具可能更合适场景推荐工具理由极大量文件(百万)os.scandir内存效率更高需要文件元信息pathlib直接获取stat信息复杂条件过滤os.listdirfilter更灵活的编程控制实时监控文件系统变化watchdog专门的文件系统事件监控库跨平台特殊字符处理pathlib自动处理平台差异

选它做OTA Master？域控制器的存储、算力与多线程避坑指南

选它做OTA Master？域控制器的存储、算力与多线程避坑指南当车企的电子电气架构从分布式迈向集中式，OTA Master的角色便从简单的"传令兵"升级为"指挥官"。这个藏在域控制器里的关键模块，决定了整车OTA的成败——它既要像…

2026/6/10 12:04:43 阅读更多

IDEA远程开发实战：像操作本地一样调试云端Docker容器里的Java应用

IDEA远程开发实战：像操作本地一样调试云端Docker容器里的Java应用在云原生技术席卷全球的今天，越来越多的开发团队将开发环境迁移到云端。传统开发模式下，开发者需要在本地编写代码，构建Docker镜像，推送到远程仓库&…

2026/6/10 12:04:43 阅读更多

别再只会点亮LED了！用STM32F103C8T6驱动数码管做个简易计数器（附完整代码）

STM32F103C8T6数码管计数器实战：从硬件原理到代码优化数码管作为嵌入式系统中最基础的人机交互元件之一，其控制原理看似简单却蕴含着GPIO操作的精华。很多初学者在掌握了LED点灯后，面对数码管时往往陷入"能亮但代码乱"的困境。本文…

2026/6/10 12:04:43 阅读更多

大麦网抢票脚本：用Python技术告别手动抢票的烦恼

大麦网抢票脚本：用Python技术告别手动抢票的烦恼【免费下载链接】Automatic_ticket_purchase 大麦网抢票脚本项目地址: https://gitcode.com/GitHub_Trending/au/Automatic_ticket_purchase 你是否经历过这样的场景？热门演唱会门票开售瞬间&…

2026/6/10 13:51:06 阅读更多

2026年秦皇岛旅行攻略：如何挑选性价比高的旅行社？

2026年计划前往秦皇岛旅行时，挑选性价比高且服务优质的旅行社至关重要。以下是一些关键点和建议，帮助您做出明智的选择：1. 确认旅行社资质查看营业执照与许可证：确保所选旅行社持有合法的营业执照以及由文旅部门颁发的旅行社业务经…

2026/6/10 13:51:06 阅读更多

Python 数据可视化

前言数据可视化是数据分析、数据挖掘、商业智能 BI、数据大屏、机器学习结果展示中非常重要的一环。简单来说，数据可视化就是将结构化或非结构化数据，通过图形、颜色、位置、大小、形状、文字等视觉元素进行编码，从而让用户能够更直观地理…

2026/6/10 13:49:24 阅读更多

i.MX 6 GPMI控制器NAND Flash时序配置：从异步到DDR模式详解

1. 项目概述：为什么NAND Flash时序是嵌入式系统的“心跳”在嵌入式硬件开发中，尤其是基于i.MX 6这类高性能应用处理器的系统里，NAND Flash接口的时序配置，其重要性不亚于为系统设定一个精准而稳定的“心跳”。这个“心跳”的每一次…

2026/6/10 13:46:18 阅读更多

i.MX 6处理器电气特性深度解析：从PLL时钟到DDR信号完整性的硬件设计指南

1. 项目概述：从数据手册到设计指南对于任何一位从事基于i.MX 6Dual/6Quad处理器硬件设计的工程师来说，那份动辄数千页的官方数据手册（Datasheet）和参考手册（Reference Manual）既是宝藏，也是迷宫…

2026/6/10 13:46:18 阅读更多

企业宣传片拍摄制作服务商选择全解析：为什么需要宣传片，以及如何选对专业服务商

一、企业宣传片：从"形象展示"到"战略资产"的价值跃迁步入2026年，企业宣传片早已不是简单的"企业介绍视频"，而是品牌信任资产构建、营销转化与雇主形象展示的核心载体。据行业数据显示，2023年至202…

2026/6/10 13:45:16 阅读更多

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each …

2026/6/10 0:00:34 阅读更多

从导航软件到游戏寻路：用C++手把手实现Dijkstra最短路径算法（附完整代码）

从导航软件到游戏寻路：用C手把手实现Dijkstra最短路径算法每次打开手机地图导航，或是操控游戏角色穿越复杂地形时，背后都藏着一个数学魔法——最短路径算法。Dijkstra算法作为图论中的经典解决方案，从1956年诞生至今，已…

2026/6/10 0:01:14 阅读更多

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱，支持下载视频、番剧等等各类资源项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/6/10 0:02:17 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/10 0:41:57 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/10 0:41:54 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/10 0:32:14 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/10 9:56:42 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/10 9:56:39 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/10 9:56:34 阅读更多

相关文章

选它做OTA Master？域控制器的存储、算力与多线程避坑指南

IDEA远程开发实战：像操作本地一样调试云端Docker容器里的Java应用

别再只会点亮LED了！用STM32F103C8T6驱动数码管做个简易计数器（附完整代码）

大麦网抢票脚本：用Python技术告别手动抢票的烦恼

2026年秦皇岛旅行攻略：如何挑选性价比高的旅行社？

Python 数据可视化

i.MX 6 GPMI控制器NAND Flash时序配置：从异步到DDR模式详解

i.MX 6处理器电气特性深度解析：从PLL时钟到DDR信号完整性的硬件设计指南

企业宣传片拍摄制作服务商选择全解析：为什么需要宣传片，以及如何选对专业服务商

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析

从导航软件到游戏寻路：用C++手把手实现Dijkstra最短路径算法（附完整代码）

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因