通过DrissionPage爬取某获客平台内容 前言最近想用自己之前写的脚本看看市场行情结果发现代码竟然跑不通了仔细一查发现拓客吧做了三个改动反爬检测打开开发者工具就进入无限循环或者整个网页闪退关闭分页机制取消以前通过page 参数翻页的方式失效了。薪资数据加密搜索结果页的薪资数字变成了乱码用字体加密的方式防止直接采集。不过我发现虽然搜索结果页加密了但每个详情页里的薪资还是明文的基于这个发现我的主要调整思路是临时禁用JavaScript让页面以纯静态形式加载。适配新的页面加载方式改为滚动加载职位信息。无视搜索结果页的薪资加密直接解析详情页。缺点由于是通过自动化的方式采集数据效率比较一般优点稳定不容易触发反爬试了五个关键词采集也就是1500个详情页解析个人的话应该够用我把脚本整理了一下发出来供有类似需求的朋友参考。欢迎交流1.cookie处理脚本打开浏览器后打开登录界面扫码登录等待脚本保存cookiedef get_cookie(self, urlhttps://www.tuokeba.com, timeout30): 获取Cookie手动登录 logger.info(请打开登录窗口扫码登录您的个人账号...) self.page.get(url) time.sleep(timeout) # 等待手动登录 cookies self.page.cookies() self.file_manager.save_json(cookies, self.config.cookie_file) logger.info(fCookie已保存到{self.config.cookie_file}) def load_cookie(self) - bool: 加载Cookie if not os.path.exists(self.config.cookie_file): logger.warning(fCookie文件不存在: {self.config.cookie_file}) return False logger.info(开始加载Cookie) self.page.get(https://www.tuokeba.com) time.sleep(2) cookies self.file_manager.load_json(self.config.cookie_file) for cookie in cookies: self.page.set.cookies(cookie) self.page.refresh() time.sleep(2) logger.info(Cookie加载完成) # 保存首页HTML if self.config.save_html_debug: self.file_manager.save_html(self.page.html, 01_首页_加载Cookie后) return True2.首页处理2.1 前置步骤绕过反爬检测仅调试时勾选注正常访问网站时发生异常比如一直在空白页加载可能是这个禁用js的选项没有取消勾选取消勾选后再刷新网站即可正常访问由于目标网站设置了严格的反爬虫机制直接按F12进入开发者工具网站会闪退。我们可以通过临时禁用浏览器JavaScript来绕过大部分检测让页面以纯静态形式加载这个模式下我们可以随意定位元素。操作步骤打开浏览器按F12进入开发者工具点击右上角的齿轮图标⚙进入设置向下找到Debugger调试器部分勾选Disable JavaScript禁用JavaScript图示