Python爬虫实战：ThreadPoolExecutor多线程采集书籍信息与图片下载

发布时间：2026/6/10 17:54:33

Python爬虫实战ThreadPoolExecutor多线程采集书籍信息与图片下载完整代码在最后Python 爬虫和多线程使用 BooksToScrape 网站作为练习项目实现获取所有书籍详情页链接获取图片链接多线程采集书籍信息保存 CSV 数据多线程下载图片项目不大但在开发过程中踩到了不少坑本文记录整个开发过程中的经验、问题以及解决方案。项目目标实现以下功能获取列表页 ↓ 提取书籍详情页链接 ↓ 提取图片链接 ↓ 线程池采集详情页 ↓ 保存CSV ↓ 线程池下载图片项目使用技术requests BeautifulSoup ThreadPoolExecutor csv os urllib.parse.urljoin第一个坑标签选择错误最开始写的是articlessoup.find_all(div,class_product_pod)结果print(len(articles))# 输出0检查网页结构后发现articleclassproduct_pod正确写法articlessoup.find_all(article,class_product_pod)写爬虫时不要想当然一定要检查网页真实结构第二个坑图片地址获取错误最开始使用img[href]结果报错KeyError:href因为imgsrcmedia/cache/...jpg图片标签使用的是src而不是href正确写法img_srcimg[src]经验a标签一般使用href img标签一般使用src第三个坑线程池没有真正并发刚学习线程池时写法如下forbook_urlinbook_urls:futurepool.submit(save_books,book_url)writer.writerow(future.result())看起来使用了线程池ThreadPoolExecutor实际上提交任务 ↓ 等待结果 ↓ 提交下一个任务效果接近单线程。正确写法先提交所有任务futures[]forbook_urlinbook_urls:futurepool.submit(save_books,book_url)futures.append(future)再统一获取结果forfutureinfutures:writer.writerow(future.result())这样线程池才能真正发挥作用。第四个坑Future对象不是结果最开始理解错误futurepool.submit(save_books,book_url)print(future)输出Future at0x123456staterunning发现拿到的不是书籍信息。原因submit()返回的是Future对象它表示未来某个时间的结果真正获取结果future.result()第五个坑文件提前关闭最开始写法withopen(books.csv,w)asf:writercsv.writer(f)writer.writerow(data)结果ValueError:I/O operation on closedfile原因with结束后文件自动关闭。必须保证writer.writerow()在 with 代码块内部执行。第六个坑线程写CSV最开始想让多个线程直接写 CSV。后来发现容易出现数据错乱缺失覆盖正确思路线程负责采集 ↓ 主线程统一写文件即returndata最后writer.writerows(data_list)第七个坑下载图片没有返回值下载函数defdownload(url):...没有return因此future.result()返回None但这并不代表 Future 没用。Future还有两个重要作用等待任务结束捕获异常例如future.result()可以检查requests.exceptions.Timeout等异常。ThreadPoolExecutor常用知识点创建线程池fromconcurrent.futuresimportThreadPoolExecutorwithThreadPoolExecutor(max_workers10)aspool:...提交任务futurepool.submit(func,arg1,arg2)等价于func(arg1,arg2)获取结果resultfuture.result()等待所有任务完成forfutureinfutures:future.result()捕获异常try:resultfuture.result()exceptExceptionase:print(e)本次项目结构get_list() ↓ book_urls img_urls ↓ ThreadPoolExecutor ↓ save_books() ↓ CSV ------------------- ThreadPoolExecutor ↓ download() ↓ images完整代码importosimportrequestsfrombs4importBeautifulSoupfromconcurrent.futuresimportThreadPoolExecutorfromurllib.parseimporturljoinimportcsv urlhttps://books.toscrape.com/headers{User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36,Accept:text/html,application/xhtmlxml,application/xml;q0.9,*/*;q0.8,Accept-Language:zh-CN,zh;q0.9,en;q0.8,Accept-Encoding:gzip, deflate, br,Connection:keep-alive} 一次性获取所有书籍信息下载图片并且保存数据多线程实现 book_urls[]img_urls[]#获取所有书籍详情页地址defget_list():current_urlurl num0whileTrue:resrequests.get(current_url,headersheaders,timeout10)soupBeautifulSoup(res.text,html.parser)articlessoup.find_all(article,class_product_pod)forarticleinarticles:num1print(f找到第{num}条数据)book_hrefarticle.find(div,class_image_container).find(a)[href]img_srcarticle.find(div,class_image_container).find(img)[src]book_urlurljoin(current_url,book_href)img_urlurljoin(current_url,img_src)book_urls.append(book_url)img_urls.append(img_url)break#爬取第一页测试即可next_lisoup.find(li,class_next)ifnext_liisNone:breaknext_urlurljoin(current_url,next_li.find(a)[href])current_urlnext_url#保存数据defsave_books(book_url):resrequests.get(book_url,headersheaders,timeout10)soupBeautifulSoup(res.text,html.parser)titlesoup.find(div,class_col-sm-6 product_main).find(h1).text.strip()pricesoup.find(p,class_price_color).text.strip()instocksoup.find(p,class_instock availability).text.strip()return[title,price,instock]#下载图片defdownload(img_url,i):makedirdownloados.makedirs(makedir,exist_okTrue)resrequests.get(img_url,headersheaders,timeout10)filenameos.path.join(makedir,fimage_{i}.png)withopen(filename,wb)asf:f.write(res.content)if__name____main__:get_list()print(f共找到{len(book_urls)}本书开始爬取...)withThreadPoolExecutor(max_workers10)aspool:# 1. 先提交所有任务真正并行futures[pool.submit(save_books,book_url)forbook_urlinbook_urls]# 2. 再统一写入 CSV避免边爬边写时异常中断withopen(books.csv,w,newline,encodingutf-8-sig)asf:# 用 utf-8-sig 防止 Windows 乱码writercsv.writer(f)writer.writerow([书名,价格,库存])forfutureinfutures:try:rowfuture.result(timeout10)# 增加超时保护writer.writerow(row)exceptExceptionase:print(f爬取书籍信息失败:{e})writer.writerow([爬取失败,N/A,N/A])# 3. 下载图片和上面使用同一个 poolprint(开始下载图片...)download_futures[]fori,img_urlinenumerate(img_urls,start1):futpool.submit(download,img_url,i)download_futures.append(fut)# 等待图片下载完成forfutindownload_futures:try:fut.result(timeout30)exceptExceptionase:print(f下载图片失败:{e})print(全部完成)

僵尸毁灭工程联机服务器一键开服搭建

《僵尸毁灭工程》（Project Zomboid）是一款硬核末日生存沙盒游戏，Steam同时在线峰值曾超过5.8万人。自建专属服务器可以避免公共服的延迟、作弊和规则限制，但传统开服方式需要手动配置Java环境、编辑配置文件、处理端口映射&#x…

2026/6/10 17:53:32 阅读更多

1B参数小模型HRM-Text低预算挑战大模型性能，开启计算结构新增长轴？

HRM-Text：1B参数小模型，低预算挑战大模型性能，开启计算结构新增长轴？2026年5月18日，Sapient Intelligence发布了HRM-Text，这是一个约1B参数的模型。它在MATH上拿到56.2，在GSM8K上拿到84.5&#…

2026/6/10 17:52:32 阅读更多

【中亦科技618】88份企业运维福利，先到先得！

“Oracle上的核心交易，新业务要上GaussDB，办公系统切了达梦，底层是麒麟——四套技术栈同时跑，出问题的时候，连日志都不知道该先查哪一层。”——这是最近和一位运维负责人聊天时，他的原话。过去三年&#x…

2026/6/10 17:52:32 阅读更多

Python 爬虫项目爬虫任务分组管理与批量启停

前言随着爬虫业务体量不断扩张，单脚本、单任务的运行模式已无法适配多站点、多品类、多区域的数据采集需求。实际生产环境中，往往需要同时维护数十甚至上百条爬虫任务，不同任务对应不同目标站点、采集规则、运行周期与资源配额。若依旧采用…

2026/6/10 19:20:45 阅读更多

话题锚定：信息时代最被忽视的阅读元能力

1. 这不是语法题，而是一场阅读理解的底层能力重建“What is the article’s topic means?”——看到这个句子，很多人的第一反应是：这明显有语病，应该是 “What does the article’s topic mean?” 才对。但我要说，停…

2026/6/10 19:17:18 阅读更多

全国县级边界+骨干河湖路网GIS矢量数据包（含属性与投影）

本文还有配套的精品资源，点击获取简介：一套开箱即用的全国地理空间基础数据，包含完整县级行政区划多边形、地级行政单位边界、长江黄河等主要河流线状分布、国家及省级公路主干网络、以及鄱阳湖洞庭湖等大型天然湖泊面状要素。所有图层均…

2026/6/10 19:17:18 阅读更多

Google 26 vo辅助真题分享

Google SDE VO Coding 跟别家最大的不同，就是 follow-up 几乎没有尽头。一道题可以从最简单的基础版本开始，面试官沿着你的思路一层一层追问下去，题面不断变化、限制不断叠加，考的就是你能否在高压下实时调整，而不是背…

2026/6/10 19:14:14 阅读更多

三模对照备课法：用Claude、GPT-4o、Qwen2.5照见教学思维盲区

1. 项目概述：当同一道题被三台“大脑”同时作答“Same Prompt, Different Minds”——这个标题不是修辞，是我在上学期带教育技术选修课时的真实实验记录。我把一道面向初中语文教师的开放式教学设计题，原封不动地输入给Claude 3.5 Sonnet、GP…

2026/6/10 19:14:14 阅读更多

Python魔术方法与运算符重载

Python魔术方法与运算符重载一、什么是魔术方法魔术方法（Magic Methods / Dunder Methods）是Python中以双下划线开头和结尾的特殊方法。它们定义了对象在特定操作下的行为，是Python数据模型的核心。二、对象创建与初始化class Vector: def __…

2026/6/10 19:13:29 阅读更多

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each …

2026/6/10 0:00:34 阅读更多

从导航软件到游戏寻路：用C++手把手实现Dijkstra最短路径算法（附完整代码）

从导航软件到游戏寻路：用C手把手实现Dijkstra最短路径算法每次打开手机地图导航，或是操控游戏角色穿越复杂地形时，背后都藏着一个数学魔法——最短路径算法。Dijkstra算法作为图论中的经典解决方案，从1956年诞生至今，已…

2026/6/10 0:01:14 阅读更多

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱，支持下载视频、番剧等等各类资源项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/6/10 0:02:17 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/10 0:41:57 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/10 0:41:54 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/10 0:32:14 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/10 9:56:42 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/10 9:56:39 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/10 9:56:34 阅读更多

相关文章