Python网络爬虫实战：从Requests到Scrapy的完整指南

发布时间：2026/5/22 19:40:46

Python网络爬虫实战从Requests到Scrapy的完整指南引言网络爬虫是数据采集和分析的重要工具。作为从Python转向Rust的后端开发者我发现Python的爬虫生态非常成熟从简单的Requests到强大的Scrapy框架能够满足各种爬虫需求。本文将从实战角度出发深入探讨Python网络爬虫的最佳实践帮助你构建高效、稳定的爬虫系统。一、网络爬虫概述1.1 爬虫类型类型特点适用场景静态爬虫爬取静态HTML页面简单网站、数据采集动态爬虫处理JavaScript渲染现代SPA应用增量爬虫定期更新数据新闻、博客监控分布式爬虫多节点协作大规模数据采集1.2 爬虫架构┌─────────────────────────────────────────────────────┐ │ 调度层 │ │ URL队列 → 调度器 → 请求分发 │ ├─────────────────────────────────────────────────────┤ │ 抓取层 │ │ 请求模块 → 页面解析 → 数据提取 │ ├─────────────────────────────────────────────────────┤ │ 存储层 │ │ 数据清洗 → 数据存储 → 数据备份 │ └─────────────────────────────────────────────────────┘二、Requests基础爬虫2.1 基本请求import requests url https://example.com response requests.get(url) print(f状态码: {response.status_code}) print(f响应头: {response.headers}) print(f响应内容: {response.text[:500]})2.2 请求参数params {key1: value1, key2: value2} headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36, Referer: https://example.com } response requests.get( https://api.example.com/data, paramsparams, headersheaders, timeout10 )2.3 会话管理session requests.Session() session.headers.update({User-Agent: MyBot/1.0}) # 保持登录状态 session.post(https://example.com/login, data{username: user, password: pass}) # 后续请求自动携带cookie response session.get(https://example.com/dashboard)三、BeautifulSoup解析3.1 HTML解析from bs4 import BeautifulSoup html response.text soup BeautifulSoup(html, html.parser) # 查找标签 title soup.title.string print(f页面标题: {title}) # 查找元素 links soup.find_all(a, hrefTrue) for link in links[:5]: print(f链接: {link[href]} - {link.get_text()}) # 使用CSS选择器 articles soup.select(article.post) for article in articles: title article.select_one(h2.title).get_text() summary article.select_one(p.summary).get_text() print(f{title}: {summary})3.2 数据提取实战def extract_news_items(html): soup BeautifulSoup(html, html.parser) news_items [] for item in soup.select(div.news-item): title item.select_one(h3).get_text(stripTrue) url item.select_one(a)[href] date item.select_one(span.date).get_text(stripTrue) category item.select_one(span.category).get_text(stripTrue) news_items.append({ title: title, url: url, date: date, category: category }) return news_items四、Scrapy框架4.1 创建项目scrapy startproject my_spider cd my_spider scrapy genspider example example.com4.2 编写爬虫import scrapy class ExampleSpider(scrapy.Spider): name example allowed_domains [example.com] start_urls [https://example.com/news] def parse(self, response): for article in response.css(article.post): yield { title: article.css(h2.title::text).get(), url: article.css(a::attr(href)).get(), summary: article.css(p.summary::text).get(), date: article.css(time::attr(datetime)).get() } # 分页处理 next_page response.css(a.next-page::attr(href)).get() if next_page: yield response.follow(next_page, self.parse)4.3 配置文件# settings.py USER_AGENT MySpider/1.0 (http://www.example.com) ROBOTSTXT_OBEY True DOWNLOAD_DELAY 2 CONCURRENT_REQUESTS 8 ITEM_PIPELINES { my_spider.pipelines.MySpiderPipeline: 300, }4.4 数据管道class MySpiderPipeline: def process_item(self, item, spider): # 数据清洗 item[title] item[title].strip() item[summary] item[summary].strip() # 数据存储 self.store_item(item) return item def store_item(self, item): # 存储到数据库或文件 pass五、动态页面爬取5.1 使用Seleniumfrom selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC driver webdriver.Chrome() driver.get(https://example.com/dynamic-page) # 等待元素加载 wait WebDriverWait(driver, 10) element wait.until( EC.presence_of_element_located((By.CSS_SELECTOR, div.content)) ) # 提取数据 content element.text print(content) driver.quit()5.2 使用Playwrightfrom playwright.sync_api import sync_playwright with sync_playwright() as p: browser p.chromium.launch(headlessTrue) page browser.new_page() page.goto(https://example.com/dynamic-page) # 等待网络空闲 page.wait_for_load_state(networkidle) # 提取数据 items page.query_selector_all(div.item) for item in items: title item.query_selector(h3).inner_text() print(title) browser.close()六、反爬策略6.1 请求频率控制import time from random import randint class RateLimiter: def __init__(self, min_delay1, max_delay3): self.min_delay min_delay self.max_delay max_delay def wait(self): delay randint(self.min_delay * 1000, self.max_delay * 1000) / 1000 time.sleep(delay) rate_limiter RateLimiter() # 在请求之间等待 rate_limiter.wait() response requests.get(url)6.2 User-Agent轮换USER_AGENTS [ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36, Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36, Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36, ] headers {User-Agent: random.choice(USER_AGENTS)} response requests.get(url, headersheaders)6.3 使用代理proxies { http: http://proxy-server:port, https: https://proxy-server:port } response requests.get(url, proxiesproxies)七、实战完整爬虫系统7.1 项目结构my_crawler/ ├── crawler/ │ ├── __init__.py │ ├── spiders/ │ │ ├── news_spider.py │ │ └── product_spider.py │ ├── pipelines/ │ │ └── database_pipeline.py │ └── settings.py ├── data/ ├── logs/ └── main.py7.2 主程序from scrapy.crawler import CrawlerProcess from crawler.settings import Settings from crawler.spiders.news_spider import NewsSpider def main(): process CrawlerProcess(settingsSettings()) process.crawl(NewsSpider) process.start() if __name__ __main__: main()7.3 数据库存储import sqlite3 class DatabasePipeline: def __init__(self): self.conn sqlite3.connect(data/crawler.db) self.cursor self.conn.cursor() self.create_table() def create_table(self): self.cursor.execute( CREATE TABLE IF NOT EXISTS news ( id INTEGER PRIMARY KEY AUTOINCREMENT, title TEXT, url TEXT UNIQUE, summary TEXT, date TEXT, category TEXT ) ) self.conn.commit() def process_item(self, item, spider): try: self.cursor.execute( INSERT OR IGNORE INTO news (title, url, summary, date, category) VALUES (?, ?, ?, ?, ?) , (item[title], item[url], item[summary], item[date], item[category])) self.conn.commit() except Exception as e: spider.logger.error(f存储失败: {e}) return item八、爬虫最佳实践8.1 遵守robots.txt# 检查robots.txt from urllib.robotparser import RobotFileParser rp RobotFileParser() rp.set_url(https://example.com/robots.txt) rp.read() if rp.can_fetch(MyBot, https://example.com/news): # 可以爬取 response requests.get(https://example.com/news) else: print(该页面禁止爬取)8.2 设置合理的请求头headers { User-Agent: MyCrawler/1.0 (https://example.com/crawler), Accept: text/html,application/xhtmlxml,application/xml;q0.9,*/*;q0.8, Accept-Language: zh-CN,zh;q0.9,en;q0.8, Accept-Encoding: gzip, deflate, br, Connection: keep-alive, Cache-Control: max-age0, }8.3 错误处理try: response requests.get(url, timeout10) response.raise_for_status() except requests.exceptions.RequestException as e: print(f请求失败: {e}) # 可以选择重试或跳过九、总结Python的爬虫生态非常强大从简单的Requests到专业的Scrapy框架能够满足各种数据采集需求。作为后端开发者掌握爬虫技能不仅能够帮助我们获取数据还能为数据分析和机器学习提供数据支持。关键要点选择合适的工具根据需求选择Requests、BeautifulSoup、Scrapy或Playwright遵守规则尊重网站的robots.txt和使用条款反爬应对实现请求频率控制、User-Agent轮换、代理使用数据存储合理设计数据存储方案错误处理完善的异常处理机制从Python转向Rust后我发现Rust的reqwest库在性能方面有很大优势适合构建高性能的爬虫系统。延伸阅读Scrapy官方文档Requests官方文档BeautifulSoup教程Playwright官方指南

【DeepSeek V2核心能力解密】：20年AI架构师亲测的5大突破性功能与企业落地避坑指南

更多请点击： https://intelliparadigm.com 第一章：DeepSeek V2核心能力全景概览 DeepSeek V2 是深度求索（DeepSeek）推出的高性能开源大语言模型系列，具备卓越的多任务泛化能力、长上下文理解力与高效推理性能。其架构…

2026/5/22 19:40:46 阅读更多

BlindWaterMark盲水印技术实战指南：Python实现版权保护与数字取证高效方案

BlindWaterMark盲水印技术实战指南：Python实现版权保护与数字取证高效方案【免费下载链接】BlindWaterMark 盲水印 by python 项目地址: https://gitcode.com/gh_mirrors/bli/BlindWaterMark 在数字化内容爆炸式增长的时代，版权保护和数字取证面…

2026/5/22 19:39:23 阅读更多

告别过曝和死黑！用Python+OpenCV玩转HDR多曝光融合，手机照片也能秒变大片

用Python解锁手机摄影新境界：HDR多曝光融合实战指南每次看到朋友圈里那些光影层次丰富、细节惊人的风景照片，你是否好奇他们是怎么拍出来的？专业摄影师可能会告诉你这是HDR技术的功劳。但你知道吗？不需要昂贵的相机设备&#xff…

2026/5/22 19:39:23 阅读更多

Windows右键菜单终极优化指南：如何用ContextMenuManager让右键菜单秒开如飞

Windows右键菜单终极优化指南：如何用ContextMenuManager让右键菜单秒开如飞【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾经对着电脑屏幕等…

2026/5/23 0:06:21 阅读更多

Taotoken的API Key访问控制与审计日志功能在安全合规中的价值

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Taotoken的API Key访问控制与审计日志功能在安全合规中的价值 1. 引言：安全合规是现代AI应用的基础要求在企业环境中…

2026/5/23 0:06:01 阅读更多

DroidCam OBS插件终极指南：3步将手机变身专业直播摄像头

DroidCam OBS插件终极指南：3步将手机变身专业直播摄像头【免费下载链接】droidcam-obs-plugin DroidCam OBS Source 项目地址: https://gitcode.com/gh_mirrors/dr/droidcam-obs-plugin 你是否在为昂贵的摄像头设备而烦恼？想用手机的高清摄像头进…

2026/5/23 0:06:01 阅读更多

python多任务框架?_?Python多任务框架Celery、Dramatiq与RQ对比与使用.txt

2026/5/23 0:04:19 阅读更多

【2026年AI工具市场终极预判】：基于37家头部厂商财报、127项技术指标与Gartner/IDC交叉验证的格局演进图谱

更多请点击： https://intelliparadigm.com 第一章：2026年AI工具市场格局分析截至2026年，全球AI工具市场已从早期的“模型即服务”（MaaS）阶段演进为深度垂直整合与轻量化协同并存的双轨生态。头部厂商不再仅比拼参数规…

2026/5/23 0:04:19 阅读更多

Sora 2提示词失效真相大起底（92%用户踩中的3类语义断层陷阱）

更多请点击： https://kaifayun.com 第一章：Sora 2提示词失效的底层归因与认知重构 Sora 2提示词失效并非表层的语法错误或格式偏差，而是源于其多模态对齐机制中语义解码器与时空生成器之间的结构性错配。当用户输入“雨夜东京涩谷十字路口&a…

2026/5/23 0:04:19 阅读更多

红黑树完全指南：从五条性质到完整插入删除实现

引言在前面的树系列中，我们学习了二叉搜索树（BST）和 AVL 树。AVL 树通过严格的平衡条件（|BF| ≤ 1）保证 O(log n) 的性能，但代价是删除操作可能触发 O(log n) 次旋转。红黑树（Red-Black Tree&am…

2026/5/23 0:01:37 阅读更多

黎曼猜想：哲学 × 数学思维范式全链条

黎曼猜想：哲学数学思维范式全链条华夏之光永存｜七大数学猜想思维范式全链条第二篇开篇黎曼猜想被公认为数学史上最伟大的未解难题。希尔伯特曾说：“如果我沉睡百年后醒来，第一个问题就是：黎曼猜想证明了吗&…

2026/5/23 0:02:38 阅读更多

在Nodejs后端服务中集成稳定可靠的大模型能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Nodejs后端服务中集成稳定可靠的大模型能力应用场景类，针对需要构建智能对话或内容生成功能的后端工程师&#xff0…

2026/5/23 0:03:18 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/22 17:05:13 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/22 16:54:23 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/22 14:41:35 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/22 11:03:47 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/22 3:58:33 阅读更多

相关文章

【DeepSeek V2核心能力解密】：20年AI架构师亲测的5大突破性功能与企业落地避坑指南

BlindWaterMark盲水印技术实战指南：Python实现版权保护与数字取证高效方案

告别过曝和死黑！用Python+OpenCV玩转HDR多曝光融合，手机照片也能秒变大片

Windows右键菜单终极优化指南：如何用ContextMenuManager让右键菜单秒开如飞

Taotoken的API Key访问控制与审计日志功能在安全合规中的价值

DroidCam OBS插件终极指南：3步将手机变身专业直播摄像头

python多任务框架?_?Python多任务框架Celery、Dramatiq与RQ对比与使用.txt

【2026年AI工具市场终极预判】：基于37家头部厂商财报、127项技术指标与Gartner/IDC交叉验证的格局演进图谱

Sora 2提示词失效真相大起底（92%用户踩中的3类语义断层陷阱）

红黑树完全指南：从五条性质到完整插入删除实现

黎曼猜想：哲学 × 数学 思维范式全链条

在Nodejs后端服务中集成稳定可靠的大模型能力

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

黎曼猜想：哲学 × 数学思维范式全链条

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)