Python协程实战：异步高效爬取《鬼神传》全本小说

发布时间：2026/5/31 20:35:14

一、项目背景在网络爬虫开发中同步爬取大量小说章节时效率低下等待IO时间过长。本文将使用Python协程和异步IO技术结合 aiohttp 、 asyncio 、 aiofiles 实现高并发、高效率的小说爬取大幅提升下载速度。二、技术选型异步HTTP请求aiohttp异步文件写入aiofilesHTML解析lxml协程调度asyncio网页请求requests三、完整代码实现import requests from lxml import etree import time import asyncio import aiohttp import aiofiles import os BASE_URL https://www.zanghaihua.org # 获取所有章节链接 def get_every_chapter_url(url): headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 } resp requests.get(url, headersheaders) resp.encoding utf-8 tree etree.HTML(resp.text) a_list tree.xpath(//dl[classgs-booklist-dl]//dd/a) href_list [] title_list [] for a in a_list: href a.xpath(./href)[0] title a.xpath(./text())[0] full_url BASE_URL href href_list.append(full_url) title_list.append(title) print(f成功获取 {len(href_list)} 章目录) return href_list, title_list # 下载单章 async def download_one(session, url, title): headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36, Accept-Encoding: gzip, deflate } try: async with session.get(url, headersheaders, timeout20) as resp: page_text await resp.text(encodingutf-8, errorsignore) tree etree.HTML(page_text) content_list tree.xpath(//div[classgs-article-text]//p//text()) content \n.join([text.strip() for text in content_list if text.strip()]) if not os.path.exists(./鬼神传): os.mkdir(./鬼神传) async with aiofiles.open(f./鬼神传/{title}.txt, w, encodingutf-8) as f: await f.write(title \n\n content) print(f已保存{title}) except Exception as e: print(f下载失败 {title}{e}) # 批量下载 async def download(href_list, title_list): async with aiohttp.ClientSession() as session: tasks [] for url, title in zip(href_list, title_list): task asyncio.create_task(download_one(session, url, title)) tasks.append(task) await asyncio.gather(*tasks) # 主函数 def main(): start time.time() book_url https://www.zanghaihua.org/guwen/guishenchuan/ href_list, title_list get_every_chapter_url(book_url) asyncio.run(download(href_list, title_list)) end time.time() print(f《鬼神传》全部下载完成总耗时{end - start:.2f} 秒) if __name__ __main__: main()四、代码详解1. 目录获取函数同步def get_every_chapter_url(url): # 请求头伪装浏览器 headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 } resp requests.get(url, headersheaders) resp.encoding utf-8 tree etree.HTML(resp.text) # XPath提取所有章节链接与标题 a_list tree.xpath(//dl[classgs-booklist-dl]//dd/a)用 requests 同步获取目录页目录页仅1次请求同步无性能影响XPath 精准定位章节 a 标签提取 href 与 title2. 单章异步下载async def download_one(session, url, title): async with session.get(url, headersheaders, timeout20) as resp: page_text await resp.text(encodingutf-8, errorsignore) tree etree.HTML(page_text) content_list tree.xpath(//div[classgs-article-text]//p//text())async/await 实现异步非阻塞请求session.get 复用连接提升效率异常捕获保证单个章节失败不影响整体3. 异步批量下载async def download(href_list, title_list): async with aiohttp.ClientSession() as session: tasks [asyncio.create_task(download_one(session, url, title)) for url, title in zip(href_list, title_list)] await asyncio.gather(*tasks)创建任务列表 gather 并发执行真正实现多章节同时下载速度提升10~50倍4. 主函数调度def main(): start time.time() href_list, title_list get_every_chapter_url(book_url) asyncio.run(download(href_list, title_list)) end time.time() print(f《鬼神传》全部下载完成总耗时{end - start:.2f} 秒)计时统计直观展示异步爬取效率五、运行效果几十章内容10秒内完成同步爬取需30秒以上六、关键优化点1. 连接复用 aiohttp.ClientSession 减少TCP握手开销2. 异步文件 aiofiles 避免磁盘IO阻塞事件循环3. 异常处理单章下载失败不中断整体任务4. 编码兼容 errorsignore 避免乱码崩溃5. 目录自动创建自动生成 ./鬼神传文件夹七、注意事项1. 遵守网站 robots.txt 协议请勿用于商业用途2. 合理设置并发量避免给服务器造成压力3. 可添加延时、代理IP进一步降低风险4. 本代码仅用于学习Python协程与爬虫技术八、总结通过 asyncio aiohttp aiofiles 实现的异步协程爬虫完美解决了同步爬虫IO阻塞问题在小说、图片、网页批量下载场景中效率极高。掌握这套技术可轻松应对大批量、高并发的数据采集需求。本文为原创技术文章禁止转载

blibili视频怎么下载2026全场景官方操作与合规处理方法汇总

在日常学习、娱乐、素材整理场景中，很多用户都需要保存B站视频用于离线观看，bilibili视频下载官方方法是2026年最安全、合规、稳定的视频保存方式。相较于各类非正规解析工具，官方渠道适配平台规则、无账号风险、无病毒隐患，能够满…

2026/5/31 20:34:53 阅读更多

豆包生成的视频怎么去水印详解水印位置与全场景无损去除方法

在2026年的AI创作场景中，豆包AI生成视频功能已成为大众日常剪辑、内容创作、素材制作的常用工具。平台为保护原创版权，会为所有自动生成的视频添加专属水印，部分用户在个人留存、二次剪辑、日常分享时，需要干净无水印的视频素材。…

2026/5/31 20:34:53 阅读更多

别再只问哪个AI模型更强了，2026年真正拉开差距的是向量引擎

别再只问哪个AI模型更强了，2026年真正拉开差距的是向量引擎一场AI圈的新反转正在发生过去一年，很多人讨论AI，第一句话往往是这个模型强不强。第二句话是这个模型贵不贵。第三句话是有没有稳定的API。这三个问题当然重要。但如果你最近还…

2026/5/31 20:34:33 阅读更多

Gemini社交媒体运营全链路拆解（2024最新算法适配版）

更多请点击： https://codechina.net 第一章：Gemini社交媒体运营全链路概览 Gemini 作为 Google 推出的多模态大模型，其在社交媒体运营中展现出强大的内容生成、用户洞察与跨平台协同能力。它并非单一工具，而是嵌入于 Google 生态…

2026/5/31 21:37:08 阅读更多

5分钟上手KS-Downloader：免费获取快手无水印视频的完整教程

5分钟上手KS-Downloader：免费获取快手无水印视频的完整教程【免费下载链接】KS-Downloader 快手（KuaiShou）视频/图片下载工具；数据采集工具项目地址: https://gitcode.com/gh_mirrors/ks/KS-Downloader 还在为快手视频下…

2026/5/31 21:33:22 阅读更多

zteOnu：解锁ZTE光猫工厂模式的命令行工具

zteOnu：解锁ZTE光猫工厂模式的命令行工具【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 问题引入：传统光猫管理的局限性在日常网络运维和家庭网络管理中&…

2026/5/31 21:31:41 阅读更多

【框架评测】OmniParser vs UI-TARS vs CogAgent：桌面级 GUI 解析能力终极横评

一场关于“AI如何看懂屏幕”的技术对决，2026年开年最值得关注的GUI智能体深度横评引言：当AI学会“看屏幕”，我们站在了交互革命的入口还记得那个需要手动写XPath、死磕DOM树的UI自动化时代吗？那个让无数测试工程师深夜对着手机屏幕哀嚎的时代，正在被彻底改写。 2026年…

2026/5/31 21:30:13 阅读更多

LinuxCNC数控系统终极指南：从零配置到高效加工全流程

LinuxCNC数控系统终极指南：从零配置到高效加工全流程【免费下载链接】linuxcnc LinuxCNC controls CNC machines. It can drive milling machines, lathes, 3d printers, laser cutters, plasma cutters, robot arms, hexapods, and more. 项目地址: https://git…

2026/5/31 21:29:50 阅读更多

【紧急通知】Gemini旧版API将于90天后停用：3步完成无缝迁移，附官方迁移检查清单v2.1

更多请点击： https://codechina.net 第一章：Gemini服务升级公告 Google Cloud 正式宣布 Gemini API 服务全面升级，本次升级聚焦于推理性能提升、多模态支持增强及企业级安全合规能力强化。所有调用 generative-language-v1beta 和 gemini-…

2026/5/31 21:29:50 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/5/31 0:02:08 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/5/31 0:02:08 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/5/31 0:03:49 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

2026/5/31 0:02:08 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

2026/5/31 0:02:08 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

2026/5/31 0:03:49 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/30 3:46:38 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/30 3:48:20 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/30 22:39:05 阅读更多

相关文章

blibili视频怎么下载2026全场景官方操作与合规处理方法汇总

豆包生成的视频怎么去水印详解水印位置与全场景无损去除方法

别再只问哪个AI模型更强了，2026年真正拉开差距的是向量引擎

Gemini社交媒体运营全链路拆解（2024最新算法适配版）

5分钟上手KS-Downloader：免费获取快手无水印视频的完整教程

zteOnu：解锁ZTE光猫工厂模式的命令行工具

【框架评测】OmniParser vs UI-TARS vs CogAgent：桌面级 GUI 解析能力终极横评

LinuxCNC数控系统终极指南：从零配置到高效加工全流程

【紧急通知】Gemini旧版API将于90天后停用：3步完成无缝迁移，附官方迁移检查清单v2.1

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥