影刀RPA新手教程拼多多商品详情页深度采集标题价格SKU评价一站式抓取拼多多是电商数据采集的硬骨头。反爬严格、页面结构复杂、价格动态加载、SKU信息藏在JS里。很多人在淘宝京东采集得风生水起一到拼多多就碰壁。这篇文章从实战角度出发给你一套在拼多多活下来并拿到数据的方案。拼多多采集的四大难点在动手之前先搞清楚你要面对什么难点1反爬极其严格拼多多的反爬系统比淘宝京东严格得多。频率稍高就会触发验证码甚至封IP。难点2价格是动态渲染的商品价格不是写在HTML里的而是通过JS异步加载。直接用获取元素文本拿到的可能是空的。难点3SKU信息层叠复杂颜色、尺码、规格的组合点击不同的SKU价格会变。SKU信息不在页面源码中是用户交互后才加载的。难点4商品列表反常规搜索结果页不是标准的分页结构而是瀑布流无限滚动。翻页方式和其他电商平台不同。策略一搜索列表采集关键词→商品列表打开搜索页拼多多搜索URL模板https://mobile.yangkeduo.com/search_result.html?search_key蓝牙耳机注意用mobile.yangkeduo.com而不是www.pinduoduo.com。移动版页面结构更简单反爬相对宽松。列表数据提取拼多多店群自动化报活动上架商品卡片XPath//div[contains(class,search-result-item)] 循环每个卡片 标题.//div[contains(class,title)]/text() 价格.//span[contains(class,price)]/text() 销量.//span[contains(class,sales)]/text() 店铺名.//div[contains(class,mall-name)]/text() 商品链接.//a/href滚动翻页不是点击下一页拼多多搜索结果页是滚动加载更多指令滚动到页面底部 等待3秒等新数据加载 检查是否有加载更多或新商品卡片出现 有 → 继续采集 无 → 已经到底了或者用鼠标滚轮模拟指令模拟鼠标滚轮 目标搜索列表区域 滚动距离向下滚500px 等待2秒策略二商品详情页采集进入商品详情从搜索结果页获取商品链接逐个打开详情页1. 打开新标签页商品链接 2. 等待关键元素加载标题出现 页面加载完成 3. 提取数据 4.  5. 关闭标签页标题和基础信息!-- 拼多多商品详情页特征元素 --标题: //div[contains(class,goods-name)] 价格: //span[contains(class,price)] 原价: //span[contains(class,original-price)] 销量: //span[contains(class,sales-volume)]注意拼多多的class名经常变化做了混淆处理建议用contains()做模糊匹配。价格获取的注意事项拼多多的价格分几种展示价列表页显示的低价通常是SKU中的最低价券后价展示价减去优惠券拼单价拼团购买的价格# 你用获取元素文本拿到的可能是展示价price_textget_element_text(//span[contains(class,price)])# 但可能只拿到数字部分需要处理pricefloat(price_text.replace(¥,).replace(,,))策略三SKU信息采集最复杂的部分拼多多的SKU颜色/尺码/规格是通过点击触发的不是页面加载时就全在HTML里。方案模拟点击每个SKU1. 找到所有SKU选项按钮 XPath: //div[contains(class,sku-item)] 2. 循环每个SKU按钮 2.1 点击该SKU按钮 2.2 等待0.5秒价格更新 2.3 提取当前显示的价格 2.4 提取当前SKU名称 2.5 记录SKU名称 价格 3. 汇总所有SKU信息处理SKU组合有的商品颜色和尺码是分开选择的颜色选项//div[classsku-color]//span 尺码选项//div[classsku-size]//span 需要双重循环 循环颜色 点击颜色按钮 循环尺码 点击尺码按钮 记录颜色尺码价格SKU状态判断有些SKU是灰色的缺货不可选判断元素是否可点击 class包含disabled → 不可选 class包含sold-out → 售罄 正常class → 可选跳过不可选的SKU否则点击没反应流程会卡住。策略四反爬虫生存指南拼多多上做采集反爬是最大的挑战。以下策略综合使用1. 频率控制最重要- 每篇文章详情页之间间隔 5-10秒随机 - 每采集20个商品后暂停 60-120秒 - 每小时不超过 200个商品宁可慢一点也不要被封。2. User-Agent轮换UA列表 - Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/120.0 - Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/119.0 - Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) Safari/605.1 每采集10个商品换一次UA3. 不要登录重大原则采集时不登录拼多多账号。登录状态下的采集你的账号会被风控标记可能限制下单、限制参加活动。未登录状态最坏情况是封IP换一个就行不影响你的正常购物账号。4. Cookie管理采集过程中如果遇到验证码页面如果 页面标题包含验证或滑块 停止采集 等待30分钟 清除浏览器缓存 [video(video-m09Hw9SY-1781340166523)(type-csdn)(url-https://live.csdn.net/v/embed/526817)(image-https://v-blog.csdnimg.cn/asset/1d3c3709da119dd8c13ab01e9b282520/cover/Cover0.jpg)(title-TEMU店群矩阵自动化运营核价报活动)] 重新开始不要试图过验证码——拼多多的验证码滑块/点选难度很高自动过验证码的投入产出不成正比。完整的采集流程设计拼多多采集主流程每小时200个商品上限 ├─ 1. 初始化 │ - 设置浏览器参数禁止图片加载加速 │ - 随机选择User-Agent │ ├─ 2. 搜索列表采集 │ - 打开搜索页移动版 │ - 循环滚动加载每次向下滚500px │ - 提取商品基本信息 │ - 记录商品URL列表 │ ├─ 3. 商品详情采集逐个 │ ├─ 计数器每20个暂停60-120秒 │ ├─ 打开新标签页 → 等加载 │ ├─ 提取标题/价格/销量/店铺 │ ├─ 点击展开SKU → 循环提取 │ ├─ 写入SQLite │ ├─ 关闭标签页 │ ├─ 随机等待5-10秒 │ └─ 每20个换UA 清理缓存 │ ├─ 4. 收尾 │ - 采集数据汇总 │ - 生成Excel报表 │ - 清理浏览器避坑清单坑1直接拼价格拼多多商品列表页显示的是最低SKU价格打开详情看到的是当前选择SKU的价格——两者不一样。对比价格时以详情页实际显示为准。坑2商品下架不报错拼多多商品下架后打开详情页不会跳404而是展示商品已下架的提示。判断页面是否有已下架或不存在文本 有 → 标记为已下架跳过 坑3移动版和PC版价格不同移动端有时候有APP专享价比PC端便宜几块钱。用移动版URL采集到的价格是移动端价格和PC端可能不一样。如果需要PC端价格用PC版URL。总结拼多多采集的核心挑战是反爬不是技术。四大策略移动版URL 低频控制 不登录 UA轮换。SKU信息需要模拟点击逐条提取不能指望直接从HTML里拿到。每小时200个商品是安全线超过了风险大幅上升。把这个限制当成硬约束。尊重反爬规则不要让采集变成攻击。内容标签#影刀RPA #拼多多 #数据采集 #反爬 #电商作者林焱系列影刀RPA实操指南系列——直面最难啃的电商平台
影刀RPA实操指南_拼多多商品详情页深度采集标题价格SKU评价一站式抓取
发布时间:2026/6/13 22:25:05
影刀RPA新手教程拼多多商品详情页深度采集标题价格SKU评价一站式抓取拼多多是电商数据采集的硬骨头。反爬严格、页面结构复杂、价格动态加载、SKU信息藏在JS里。很多人在淘宝京东采集得风生水起一到拼多多就碰壁。这篇文章从实战角度出发给你一套在拼多多活下来并拿到数据的方案。拼多多采集的四大难点在动手之前先搞清楚你要面对什么难点1反爬极其严格拼多多的反爬系统比淘宝京东严格得多。频率稍高就会触发验证码甚至封IP。难点2价格是动态渲染的商品价格不是写在HTML里的而是通过JS异步加载。直接用获取元素文本拿到的可能是空的。难点3SKU信息层叠复杂颜色、尺码、规格的组合点击不同的SKU价格会变。SKU信息不在页面源码中是用户交互后才加载的。难点4商品列表反常规搜索结果页不是标准的分页结构而是瀑布流无限滚动。翻页方式和其他电商平台不同。策略一搜索列表采集关键词→商品列表打开搜索页拼多多搜索URL模板https://mobile.yangkeduo.com/search_result.html?search_key蓝牙耳机注意用mobile.yangkeduo.com而不是www.pinduoduo.com。移动版页面结构更简单反爬相对宽松。列表数据提取拼多多店群自动化报活动上架商品卡片XPath//div[contains(class,search-result-item)] 循环每个卡片 标题.//div[contains(class,title)]/text() 价格.//span[contains(class,price)]/text() 销量.//span[contains(class,sales)]/text() 店铺名.//div[contains(class,mall-name)]/text() 商品链接.//a/href滚动翻页不是点击下一页拼多多搜索结果页是滚动加载更多指令滚动到页面底部 等待3秒等新数据加载 检查是否有加载更多或新商品卡片出现 有 → 继续采集 无 → 已经到底了或者用鼠标滚轮模拟指令模拟鼠标滚轮 目标搜索列表区域 滚动距离向下滚500px 等待2秒策略二商品详情页采集进入商品详情从搜索结果页获取商品链接逐个打开详情页1. 打开新标签页商品链接 2. 等待关键元素加载标题出现 页面加载完成 3. 提取数据 4.  5. 关闭标签页标题和基础信息!-- 拼多多商品详情页特征元素 --标题: //div[contains(class,goods-name)] 价格: //span[contains(class,price)] 原价: //span[contains(class,original-price)] 销量: //span[contains(class,sales-volume)]注意拼多多的class名经常变化做了混淆处理建议用contains()做模糊匹配。价格获取的注意事项拼多多的价格分几种展示价列表页显示的低价通常是SKU中的最低价券后价展示价减去优惠券拼单价拼团购买的价格# 你用获取元素文本拿到的可能是展示价price_textget_element_text(//span[contains(class,price)])# 但可能只拿到数字部分需要处理pricefloat(price_text.replace(¥,).replace(,,))策略三SKU信息采集最复杂的部分拼多多的SKU颜色/尺码/规格是通过点击触发的不是页面加载时就全在HTML里。方案模拟点击每个SKU1. 找到所有SKU选项按钮 XPath: //div[contains(class,sku-item)] 2. 循环每个SKU按钮 2.1 点击该SKU按钮 2.2 等待0.5秒价格更新 2.3 提取当前显示的价格 2.4 提取当前SKU名称 2.5 记录SKU名称 价格 3. 汇总所有SKU信息处理SKU组合有的商品颜色和尺码是分开选择的颜色选项//div[classsku-color]//span 尺码选项//div[classsku-size]//span 需要双重循环 循环颜色 点击颜色按钮 循环尺码 点击尺码按钮 记录颜色尺码价格SKU状态判断有些SKU是灰色的缺货不可选判断元素是否可点击 class包含disabled → 不可选 class包含sold-out → 售罄 正常class → 可选跳过不可选的SKU否则点击没反应流程会卡住。策略四反爬虫生存指南拼多多上做采集反爬是最大的挑战。以下策略综合使用1. 频率控制最重要- 每篇文章详情页之间间隔 5-10秒随机 - 每采集20个商品后暂停 60-120秒 - 每小时不超过 200个商品宁可慢一点也不要被封。2. User-Agent轮换UA列表 - Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/120.0 - Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/119.0 - Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) Safari/605.1 每采集10个商品换一次UA3. 不要登录重大原则采集时不登录拼多多账号。登录状态下的采集你的账号会被风控标记可能限制下单、限制参加活动。未登录状态最坏情况是封IP换一个就行不影响你的正常购物账号。4. Cookie管理采集过程中如果遇到验证码页面如果 页面标题包含验证或滑块 停止采集 等待30分钟 清除浏览器缓存 [video(video-m09Hw9SY-1781340166523)(type-csdn)(url-https://live.csdn.net/v/embed/526817)(image-https://v-blog.csdnimg.cn/asset/1d3c3709da119dd8c13ab01e9b282520/cover/Cover0.jpg)(title-TEMU店群矩阵自动化运营核价报活动)] 重新开始不要试图过验证码——拼多多的验证码滑块/点选难度很高自动过验证码的投入产出不成正比。完整的采集流程设计拼多多采集主流程每小时200个商品上限 ├─ 1. 初始化 │ - 设置浏览器参数禁止图片加载加速 │ - 随机选择User-Agent │ ├─ 2. 搜索列表采集 │ - 打开搜索页移动版 │ - 循环滚动加载每次向下滚500px │ - 提取商品基本信息 │ - 记录商品URL列表 │ ├─ 3. 商品详情采集逐个 │ ├─ 计数器每20个暂停60-120秒 │ ├─ 打开新标签页 → 等加载 │ ├─ 提取标题/价格/销量/店铺 │ ├─ 点击展开SKU → 循环提取 │ ├─ 写入SQLite │ ├─ 关闭标签页 │ ├─ 随机等待5-10秒 │ └─ 每20个换UA 清理缓存 │ ├─ 4. 收尾 │ - 采集数据汇总 │ - 生成Excel报表 │ - 清理浏览器避坑清单坑1直接拼价格拼多多商品列表页显示的是最低SKU价格打开详情看到的是当前选择SKU的价格——两者不一样。对比价格时以详情页实际显示为准。坑2商品下架不报错拼多多商品下架后打开详情页不会跳404而是展示商品已下架的提示。判断页面是否有已下架或不存在文本 有 → 标记为已下架跳过 坑3移动版和PC版价格不同移动端有时候有APP专享价比PC端便宜几块钱。用移动版URL采集到的价格是移动端价格和PC端可能不一样。如果需要PC端价格用PC版URL。总结拼多多采集的核心挑战是反爬不是技术。四大策略移动版URL 低频控制 不登录 UA轮换。SKU信息需要模拟点击逐条提取不能指望直接从HTML里拿到。每小时200个商品是安全线超过了风险大幅上升。把这个限制当成硬约束。尊重反爬规则不要让采集变成攻击。内容标签#影刀RPA #拼多多 #数据采集 #反爬 #电商作者林焱系列影刀RPA实操指南系列——直面最难啃的电商平台