Python 爬虫 Selenium 无头浏览器实战：JS 动态渲染数据全量抓取 + 反检测绕过

发布时间：2026/6/4 20:35:04

前言大量现代前端采用 Vue/React/Ajax 异步渲染页面源码无真实业务数据requests 静态请求只能拿到空壳 HTMLSelenium 驱动真实浏览器内核渲染页面等待接口异步加载完成后提取 DOM 数据但原生 Selenium 自带爬虫特征极易被站点 JS 检测拦截出现弹窗验证、禁止访问。本章围绕无头配置、浏览器指纹隐藏、webdriver 特征剔除、随机 UA 代理对接、等待策略优化落地无缝衔接前文 UA 池、代理 IP 池、Cookie 池实现动态页面稳定抓取。本文所需依赖官方文档超链接Selenium 官方文档Requests 官方文档ChromeOptions 配置文档一、动态页面抓取原理与 Selenium 反爬检测点1.1 JS 渲染数据加载流程浏览器请求首页 HTML→加载 JS 框架→前端异步 fetch/ajax 请求后端数据接口→数据回填 DOM 标签requests 仅获取第一步原始 HTML拿不到接口返回数据Selenium 完整模拟浏览器执行全流程。1.2 站点 JS 检测爬虫常用特征window.navigator.webdrivertrue原生驱动标记浏览器参数、弹窗、自动化扩展插件特征请求头固定自动化标识、缺少正常浏览器缓存特征。1.3 优化思路关闭自动化标记、剔除 chrome 运行参数特征、无头模式伪装真机环境、轮换 UA 与代理 IP从底层抹除爬虫指纹。二、环境依赖安装bash运行pip install selenium4.21.0 requests2.31.0备注Selenium4.6 版本内置 chromedriver 自动管理无需手动下载驱动。三、基础无痕反检测 Chrome 配置封装python运行from selenium.webdriver.chrome.options import Options from selenium import webdriver def get_safe_chrome_options(user_agent:strNone, proxy:strNone) - Options: 构造绕过检测的Chrome配置 chrome_opt Options() # 无头运行无浏览器弹窗 chrome_opt.add_argument(--headlessnew) # 禁用GPU chrome_opt.add_argument(--disable-gpu) # 关闭沙盒Linux服务器必备 chrome_opt.add_argument(--no-sandbox) chrome_opt.add_argument(--disable-dev-shm-usage) # 隐藏自动化控制特征 chrome_opt.add_experimental_option(excludeSwitches, [enable-automation]) chrome_opt.add_experimental_option(useAutomationExtension, False) # 自定义UA if user_agent: chrome_opt.add_argument(f--user-agent{user_agent}) # 配置代理IP ip:port if proxy: chrome_opt.add_argument(f--proxy-serverhttp://{proxy}) return chrome_opt def init_safe_driver(uaNone,proxyNone): opt get_safe_chrome_options(ua,proxy) driver webdriver.Chrome(optionsopt) # JS脚本剔除webdriver检测标记 driver.execute_cdp_cmd(Page.addScriptToEvaluateOnNewDocument, { source: Object.defineProperty(navigator, webdriver, {get: () undefined}) }) # 设置页面加载超时 driver.set_page_load_timeout(15) driver.implicitly_wait(3) return driver配置原理excludeSwitches关闭自动化启动参数规避浏览器启动特征CDP 注入 JS 覆盖 navigator.webdriver消除最核心爬虫检测字段new 版本无头区别旧版无头浏览器指纹更贴近真机。四、显式等待精准加载策略放弃固定 sleep 浪费资源固定 sleep 等待受网速波动影响过大使用 WebDriverWait 等待目标元素出现再解析python运行from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC def wait_element_load(driver, xpath_str, wait_sec10): 等待元素加载完成返回元素对象 wait WebDriverWait(driver, wait_sec) elem wait.until(EC.presence_of_element_located((By.XPATH, xpath_str))) return elem五、单页面动态数据抓取示例python运行def selenium_dynamic_crawl(target_url,rand_uaNone,rand_proxyNone): driver init_safe_driver(uarand_ua,proxyrand_proxy) try: driver.get(target_url) # 等待商品列表DOM渲染完毕 wait_element_load(driver,//div[classgoods-item]) # 批量提取数据 item_elems driver.find_elements(By.XPATH,//div[classgoods-item]) res_list [] for item in item_elems: title item.find_element(By.XPATH,.//div[classtitle]).text price item.find_element(By.XPATH,.//span[classprice]).text res_list.append({title:title,price:price}) return res_list except Exception as e: print(抓取异常,e) return [] finally: driver.quit() # 调用测试 if __name__ __main__: data selenium_dynamic_crawl(https://demo-vue-goods.com/list) print(data)六、对接代理池 UA 池实现动态轮换全反爬组合复用前面代理、UA 接口每次启动浏览器随机参数python运行import requests # 代理、UA接口地址 PROXY_API http://127.0.0.1:5010/get_proxy UA_API http://127.0.0.1:5011/get_ua def get_pool_resource(): 从各自资源池获取UA与代理 # 获取代理 p_res requests.get(PROXY_API).json() proxy p_res[proxy] if p_res[code]200 else None # 模拟UA获取对接UA池接口 ua requests.get(http://127.0.0.1:5010/get_ua).text return ua,proxy def pool_all_crawl(url): ua,proxy get_pool_resource() return selenium_dynamic_crawl(url,rand_uaua,rand_proxyproxy)七、Selenium 携带 Cookie 登录态抓取会员数据复用 Cookie 池字符串启动浏览器后写入 Cookie 实现免登录访问python运行def driver_add_cookie(driver,cookie_str,domain): cookie字符串转为字典批量写入浏览器 ck_items cookie_str.split(; ) for ck in ck_items: k,v ck.split(,1) cookie_dict {name:k,value:v,domain:domain} driver.add_cookie(cookie_dict) def crawl_with_login_cookie(target_url,cookie_str,domain): driver init_safe_driver() # 先访问域名再写入cookie driver.get(domain) driver_add_cookie(driver,cookie_str,domain) driver.get(target_url) # 等待数据渲染 wait_element_load(driver,//div[contains(class,vip-data)]) # 解析会员数据 info driver.find_element(By.XPATH,//div[classvip-info]).text driver.quit() return info八、分页滚动懒加载页面处理商品列表滚动到底部才加载下一页数据模拟鼠标下滑触发异步请求python运行import time def scroll_load_all_data(driver): last_height driver.execute_script(return document.body.scrollHeight) while True: # 滚动到页面底部 driver.execute_script(window.scrollTo(0,document.body.scrollHeight)) time.sleep(1.2) new_height driver.execute_script(return document.body.scrollHeight) if new_height last_height: break last_height new_height # 滚动完毕后统一提取全部数据 all_items driver.find_elements(By.CLASS_NAME,goods-item) return [i.text for i in all_items]九、Linux 服务器无桌面部署优化服务器无图形界面必开配置python运行chrome_opt.add_argument(--disable-gpu) chrome_opt.add_argument(--headlessnew) chrome_opt.add_argument(--no-sandbox) chrome_opt.add_argument(--disable-dev-shm-usage)部署方式搭配 nohup 后台常驻爬虫脚本。十、常见报错与优化方案表格异常解决方案webdriver 特征被拦截CDP 注入 JS 抹除 navigator.webdriver 字段使用新版无头页面加载超时缩短 page_load_timeout拆分分页抓取浏览器进程残留占用内存finally 强制 driver.quit ()定时杀残留 chrome 进程频繁被封 IP每次实例新浏览器搭配不同代理 IPUA

从Excel思维到Tableau思维：手把手教你用LOD表达式重构同比环比分析（附超市销售数据集）

从Excel到Tableau：用LOD表达式重构商业分析的思维模式当Excel表格中的VLOOKUP函数已经无法满足你对数据透视的需求时，Tableau的详细级别表达式（LOD）就像打开了一扇新世界的大门。许多分析师第一次接触Tableau时，往往会…

2026/6/4 20:35:03 阅读更多

Python 爬虫反爬突破：Cookie 加密生成算法逆向还原登录凭证

前言现代大中型互联网平台的用户登录环节已摒弃明文 Cookie 下发模式，多数后端依托自定义哈希、对称 / 非对称加密、时间戳加盐、动态密钥衍生等逻辑生成加密 Cookie 与登录凭证，常规抓包复制 Cookie、固定账号密码表单提交的爬虫方案会在短周期内失效…

2026/6/4 20:35:03 阅读更多

基于Arduino与Nextion串口屏的桌面计算器：从硬件连接到代码实现

1. 项目概述与核心价值最近在整理工作室的旧零件时，翻出了一块吃灰许久的Nextion 3.5寸屏和一个Arduino Uno，想着不能浪费，就琢磨着做个有点实用性的小玩意儿。最后决定复刻一个经典的桌面计算器，这听起来简单，但要把硬…

2026/6/4 20:34:43 阅读更多

游戏物理引擎实战：用GJK算法搞定Unity 2D凸多边形碰撞检测（附C#代码）

游戏物理引擎实战：用GJK算法搞定Unity 2D凸多边形碰撞检测（附C#代码） 在Unity 2D游戏开发中，碰撞检测是物理引擎的核心功能之一。当面对非规则凸多边形时，内置的碰撞器如BoxCollider2D或PolygonCollider2D可能无法满足…

2026/6/4 21:36:53 阅读更多

全域消费一卡通系统设计：卡券分层、分账机制与多级推广体系架构

充话费、加油、吃饭、购物——一张卡全搞定。还能越用越便宜。这不是银行发的，也不是某个商场的会员卡。是最近私域圈跑出来的「全域消费一卡通」。有意思的不是这张卡本身。有意思的是，三方都觉得自己赚了。用户觉得省了，商家觉得客流稳了&a…

2026/6/4 21:36:33 阅读更多

光流估计与运动分析深度解析（Optical Flow Motion Analysis）

目录光流基础理论经典光流方法深度学习光流RAFT 系列视频插帧运动估计与跟踪场景流评估指标与数据集应用与前沿术语速查表 1. 光流基础理论 1.1 什么是光流光流 (Optical Flow) 的定义:图像中像素在相邻帧之间的位移向量场设图像 I(x, y, t) 在时间 t 到 t1 之间:像素 (x,…

2026/6/4 21:35:52 阅读更多

从热噪声到随机数：硬件随机数生成器的电路设计与实现

1. 项目概述与核心价值在电子设计和嵌入式系统开发中，随机数是一个看似简单却至关重要的功能模块。无论是桌面小游戏的道具掉落、物联网设备的唯一ID生成，还是某些安全场景下的临时密钥，都需要一个可靠的随机源。市面上大多数方案依赖微控制器…

2026/6/4 21:34:49 阅读更多

芯片安全启动架构与信任之 TLS/SSL/mTLS 安全通信

第一部分安全模块固件代码细节1.1 多核安全信息交互架构现代SoC通常包含多个处理器核心（如Cortex-M4 Cortex-M0，或RISC-V双核），安全模块需要处理多核之间的安全信息交互。核心挑战包括：安全上下文隔离：安…

2026/6/4 21:34:49 阅读更多

别再手动传证书了！K8s里用Secret挂载TLS证书的两种姿势，哪种更适合你的业务？

Kubernetes TLS证书管理：自动化签发与手动控制的深度权衡在云原生架构中，TLS证书管理一直是安全运维的关键环节。当我们将服务部署到Kubernetes集群时，如何高效、安全地管理证书成为每个工程师必须面对的决策难题。是拥抱Kubernetes原生的cer…

2026/6/4 21:34:28 阅读更多

告别激活烦恼：IAR Embedded Workbench 许可证管理的最佳实践与合法替代方案探讨

IAR Embedded Workbench 许可证管理全指南与合规开发方案在嵌入式开发领域，IAR Embedded Workbench 以其高效的编译器和强大的调试功能著称，成为众多工程师的首选工具。然而，随着团队规模扩大和项目复杂度提升，许可证管理问题逐渐…

2026/6/4 0:03:11 阅读更多

赤铁矿磨矿过程运行优化控制软件系统【附程序】

✨ 长期致力于赤铁矿磨矿过程、磨矿粒度、数据驱动、运行优化控制、神经网络、案例推理、规则推理、软件系统研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1&…

2026/6/4 0:03:32 阅读更多

终极指南：如何使用Attu轻松管理你的Milvus向量数据库

终极指南：如何使用Attu轻松管理你的Milvus向量数据库【免费下载链接】attu The Best GUI for Milvus 项目地址: https://gitcode.com/gh_mirrors/at/attu Attu是一款专为Milvus向量数据库设计的现代化AI工作台管理工具，提供全面的可视化界面&…

2026/6/4 0:04:12 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/4 9:21:37 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/4 7:15:04 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/4 9:21:48 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/4 9:21:45 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/4 9:21:52 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/4 9:21:53 阅读更多

相关文章