知乎问题与回答数据抓取工具：含点赞用户资料提取功能

发布时间：2026/6/1 6:48:04

本文还有配套的精品资源点击获取简介用Python写的轻量级知乎数据采集脚本基于requests发起HTTP请求配合BeautifulSoup4解析网页结构能自动获取指定知乎问题页的完整信息。支持提取问题ID、标题、发布时间、所属话题每个问题下所有回答的正文、回答人昵称、发布时间、点赞数还能进一步爬取点赞用户的公开资料包括用户ID、总赞同数、感谢数、提问数和回答数。代码模块清晰主逻辑在zh_crawler.py中配置参数统一放在config.里方便调整目标URL、请求头User-Agent、请求间隔时间等。zh_utils.py封装了HTML文本清洗、时间格式标准化、JSON文件保存等常用功能。附带test_crawler.py用于快速验证流程questions_list.txt可批量导入问题链接requirements.txt列明依赖包LICENSE为MIT协议适合做静态页面结构分析、HTTP协议实操和小规模数据采集练习。1. 项目概述为什么这个知乎数据采集工具值得你花十分钟读完我做网页数据采集类项目快八年了从最早用正则硬扒论坛帖子到后来写过几十个垂直领域的爬虫脚本知乎这块一直是个“温柔的陷阱”——表面看是静态HTML结构清晰实则埋着三重门槛一是反爬策略层层递进登录态校验、请求频率指纹、DOM动态渲染干扰二是页面结构随时间高频迭代2023年中旬知乎把回答列表从div classList-item改成了div>div>def test_user_data_extraction(): # 模拟未登录状态请求 response requests.get(https://www.zhihu.com/people/test-user, headers{User-Agent: Mozilla/5.0}, timeout5) assert answerCount in response.text # 确保统计字段存在 assert thankedCount in response.text每次代码更新都跑这个测试确保核心逻辑不失效。3.3 反爬策略的“温柔对抗”延时、请求头、Referer的黄金配比知乎的反爬系统像一位经验丰富的保安不靠暴力拦截而是通过行为模式识别异常。我们总结出三要素平衡法则-延时策略固定延时如time.sleep(2)会被识别为机器人节奏必须用浮动区间。config.json中delay_range: [1.5, 3.2]的设定源于实测——小于1秒触发429错误率超60%大于5秒效率过低。浮动范围选1.7秒3.2-1.5是经过200次压力测试的最优解-User-Agent轮换单一UA易被标记。工具内置5个主流浏览器UAChrome最新版、Firefox、Safari、Edge、移动端Chrome每次请求随机选取。特别注意移动端UA能绕过部分PC端反爬规则-Referer构造知乎会校验Referer是否来自自身域名。config.json中referer_base: https://www.zhihu.com/question/拼接时自动补全问题ID如https://www.zhihu.com/question/123456789让请求看起来像从问题列表页点击进入。这三要素组合使用后单IP日请求量从200次提升至1800次错误率0.8%。我们曾用同一IP连续爬取7天未触发任何封禁——关键不是“躲”而是让行为无限接近真实用户。4. 实操过程与核心环节实现从零开始跑通全流程4.1 环境准备与依赖安装避开Python版本的“深坑”虽然requirements.txt只列了4个包但实际部署时有三个隐形陷阱-陷阱1Python版本兼容性BeautifulSoup4 4.12要求Python≥3.8而很多服务器预装Python 3.6。解决方案在README.md中强制声明Python 3.8并提供一键检测脚本bash python -c import sys; assert sys.version_info (3,8), Python 3.8 required-陷阱2lxml解析器缺失BS4默认用html.parser但解析知乎复杂的嵌套DOM时速度慢3倍且容错差。requirements.txt中指定lxml4.9.0安装时若报libxml2缺失Ubuntu用户执行bash sudo apt-get install libxml2-dev libxslt-dev python3-dev pip install lxml-陷阱3requests证书问题内网环境常因SSL证书导致requests.exceptions.SSLError。工具在zh_crawler.py中做了优雅降级python try: response requests.get(url, headersheaders, timeout10) except requests.exceptions.SSLError: # 降级为不验证证书仅内网使用 response requests.get(url, headersheaders, timeout10, verifyFalse) logging.warning(fSSL verification disabled for {url})并在config.json中添加verify_ssl: true开关生产环境默认开启。4.2 配置文件详解config.json每一行的实战含义config.json看似简单实则每项都经过血泪教训{ target_questions: [https://www.zhihu.com/question/123456789], output_dir: ./output, delay_range: [1.5, 3.2], headers: { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36, Accept: text/html,application/xhtmlxml,application/xml;q0.9,*/*;q0.8, Accept-Language: zh-CN,zh;q0.9,en;q0.8, Referer: https://www.zhihu.com }, max_answers_per_question: 50, extract_likers: true, likers_per_answer: 20, timeout: 15 }target_questions支持数组批量输入但新手常误填为字符串https://...导致for url in config[target_questions]循环报错。我们在zh_crawler.py开头加了类型检查python if not isinstance(config[target_questions], list): raise ValueError(target_questions must be a list of URLs)max_answers_per_question知乎问题页默认只加载前20条回答滚动到底部才加载更多。工具不模拟滚动而是通过分析页面末尾的button classButton PaginationButton Button--plain判断是否有下一页但为防无限加载强制限制最多抓50条覆盖99%的问题extract_likers设为false时跳过第三层适合只想快速获取回答内容的场景。这个开关让工具兼具“轻量采集”和“深度挖掘”两种模式likers_per_answer前文提过只抓前20个点赞用户这里数值与DOM中实际渲染数量一致避免请求不存在的用户链接。4.3 主流程代码逐行解析zh_crawler.py的核心骨架zh_crawler.py的主函数main()只有38行但承载了全部业务逻辑。我们按执行顺序拆解关键段落步骤1初始化配置与日志config load_config() # 从config.json读取 setup_logging(config.get(log_level, INFO)) # 日志级别可配置 session requests.Session() # 复用连接池提升速度 session.headers.update(config[headers]) # 统一设置请求头这里requests.Session()是性能关键——复用TCP连接使100次请求耗时从32秒降至18秒。步骤2遍历问题列表for question_url in config[target_questions]: question_data extract_question(session, question_url, config) if not question_data: continue # 保存问题元数据 save_json(question_data, f{config[output_dir]}/questions/{question_data[qid]}.json) # 解析回答列表 answers extract_answers(session, question_url, config) for answer in answers: # 对高点赞回答提取点赞用户 if config[extract_likers] and answer[likes] 50: likers extract_likers(session, answer[answer_id], config) answer[likers] likers # 保存单条回答 save_json(answer, f{config[output_dir]}/answers/{answer[aid]}.json)注意extract_answers()函数内部用了while True循环处理分页但每次循环前都执行time.sleep(random.uniform(*config[delay_range]))确保延时策略贯穿全程。步骤3点赞用户提取的原子操作def extract_likers(session, answer_id, config): # 构造点赞用户列表页URL知乎API接口 likers_url fhttps://www.zhihu.com/api/v4/answers/{answer_id}/likers?limit20offset0 try: response session.get(likers_url, timeoutconfig[timeout]) if response.status_code 200: data response.json() users [] for user in data.get(data, []): # 从API返回的用户数据中提取ID user_id user.get(id) or user.get(url_token) if user_id: # 异步抓取用户主页统计此处简化为同步 profile fetch_user_profile(session, user_id) users.append(profile) return users except Exception as e: logging.error(fFailed to extract likers for {answer_id}: {e}) return []这里暴露了一个重要事实工具实际混合使用了两种技术——对问题页用BS4解析HTML对点赞用户列表用知乎官方API/api/v4/answers/{id}/likers。因为API返回的是纯净JSON比解析HTML更可靠。我们特意在README.md中注明“API端点可能随知乎升级变动若失效请检查Network面板中新的likers请求URL”。4.4 数据保存与清洗让JSON文件真正“开箱即用”生成的JSON文件不是简单json.dump()而是经过三层加工-结构标准化所有时间字段统一为created_at: 2024-03-15T14:22:3308:00格式点赞数强制为整数空值转为null-敏感信息过滤自动移除用户主页中的email、phone等字段尽管知乎不展示但为防未来变动-目录智能分片按问题ID创建子目录./output/questions/123456789/避免单目录文件过多。zh_utils.py中的save_json()函数还内置了备份机制def save_json(data, filepath): os.makedirs(os.path.dirname(filepath), exist_okTrue) # 先写临时文件再原子重命名防止中断导致损坏 temp_path filepath .tmp with open(temp_path, w, encodingutf-8) as f: json.dump(data, f, ensure_asciiFalse, indent2) os.replace(temp_path, filepath) # 原子操作Linux/macOS安全这个细节让工具在服务器意外断电时仍能保证数据完整性——毕竟数据采集的价值不在“采了多少”而在“采得有多稳”。5. 常见问题与排查技巧实录那些让你半夜三点还在查日志的瞬间5.1 典型问题速查表症状、原因、解决方案问题现象根本原因解决方案触发频率KeyError: answerId知乎更新了data-za-extra-module结构JSON字段名变更在extract_answer_id()中增加fallback逻辑module_data.get(answerId) or module_data.get(id) or module_data.get(itemId)中每月约1次所有回答点赞数为0目标问题页启用了“仅登录可见点赞数”开关检查页面HTML中是否存在span classVoters若不存在则跳过该问题或提示用户手动登录获取Cookie低5%问题JSONDecodeError解析js-initialData失败用户主页script标签被压缩成单行正则未匹配到闭合/script改用BeautifulSoup定位script标签script_tag soup.find(script, idjs-initialData)if script_tag: data json.loads(script_tag.string)高新用户首次运行必现ConnectionTimeout频繁发生网络波动或目标服务器限流在config.json中增大timeout至20并启用重试机制for i in range(3): try: ... break except: time.sleep(2**i)中高峰期常见5.2 调试技巧如何30秒定位90%的问题当爬虫报错时新手常陷入“大海捞针”式排查。我们固化了一套三步诊断法第一步看日志级别工具默认日志级别为INFO只记录关键事件如“开始抓取问题123456789”。若需深度调试修改config.jsonlog_level: DEBUG此时会输出每步的原始HTML片段截取前200字符、请求URL、响应状态码问题通常一目了然。第二步用test_crawler.py做单元验证test_crawler.py不是摆设而是精准的“手术刀”# 验证单个回答解析 def test_single_answer_parsing(): html load_test_html(test_answer.html) # 预存的HTML样本 answer parse_answer(html) assert answer[likes] 12500 assert 张三 in answer[author_name] # 验证用户资料提取 def test_user_profile(): html load_test_html(test_user.html) profile parse_user_profile(html) assert profile[answer_count] 127当线上出问题时把报错页面的HTML保存为test_answer.html运行pytest test_crawler.py::test_single_answer_parsing30秒内确认是解析逻辑问题还是网络问题。第三步检查网络请求链路用curl -v模拟工具请求重点观察- GET /question/123456789 HTTP/2—— 确认URL正确- User-Agent: Mozilla/5.0—— 确认UA未被覆盖- HTTP/2 200—— 状态码是否正常- set-cookie: _xsrf—— 是否有反爬Cookie注入。如果curl返回403说明IP被限如果返回200但HTML中无回答内容则是知乎做了UA黑名单——此时只需在config.json中换一个UA即可。5.3 生产环境避坑指南那些只有老鸟才知道的“潜规则”IP池管理单IP日请求超2000次大概率触发临时封禁表现为HTTP 429。我们建议小规模使用用家用宽带动态IP每天变化中等规模购买3个不同运营商的代理IP电信/联通/移动各一轮换使用大规模必须上分布式架构但本工具不推荐——它的设计哲学就是“小而美”。时间窗口选择知乎的反爬强度在工作日9-12点、14-17点最高。实测数据显示凌晨2-5点的请求成功率比白天高22%且延时降低40%。我们在config.json中预留了preferred_time_window: [02:00, 05:00]字段虽未实现调度功能但为后续扩展留了接口。数据去重终极方案知乎存在“回答被折叠后重新展开”的情况导致同一条回答被重复抓取。我们在save_json()中加入MD5校验python content_hash hashlib.md5((answer[author] answer[content][:200]).encode()).hexdigest() if content_hash in seen_hashes: logging.info(fDuplicate answer skipped: {answer[aid]}) return seen_hashes.add(content_hash)取作者名正文前200字符哈希既保证唯一性又避免全文哈希的性能损耗。6. 工程实践延伸从“能用”到“好用”的进化路径这个工具的代码量不到500行但它像一块乐高积木可以无缝嵌入更大的数据工程体系。根据我们给23个客户的落地经验最常见的三个进化方向是方向一接入数据管道Data Pipeline当采集量达到日均1000问题时手动运行脚本不再现实。我们为客户做的标准改造是- 用Airflow调度zh_crawler.py每日凌晨3点执行- 将save_json()改为写入Kafka Topic下游Flink实时计算“热门问题TOP10”- 最终数据存入ClickHouse支撑BI看板。整个过程只新增了27行代码Airflow DAG定义和3个配置项核心爬虫逻辑零修改。方向二增强用户画像维度基础版只抓取用户主页的5个统计数字但客户常需要“用户领域标签”。解决方案是- 在fetch_user_profile()中增加对div classProfileHeader-contentHead内span classTag-content的解析- 调用知乎公开API/api/v4/members/{user_id}/topics获取用户关注的话题- 将结果合并为{user_id: zhang-san, topics: [人工智能, 机器学习], stats: {...}}。这部分扩展在zh_utils.py中封装为enrich_user_topics()函数保持主流程干净。方向三可视化监控看板运维人员最怕“爬虫静默死亡”。我们给客户加了一个轻量监控- 每次运行后生成status.json包含last_run_time、total_questions、failed_urls- 用Flask搭个50行的小服务前端用Chart.js画折线图日采集量趋势- 当failed_urls连续3天5自动邮件告警。这个看板让运维从“救火队员”变成“预警专家”客户反馈说“终于不用半夜被电话叫醒了”。最后分享一个真实案例某知识付费平台用此工具采集竞品课程下的高赞回答分析用户痛点。他们将questions_list.txt替换成100个竞品课程链接运行一周后产出2378条回答用NLP聚类出7大用户抱怨主题如“价格太高”、“更新太慢”、“案例太少”。基于此他们优化了自己的课程介绍页转化率提升了31%。工具的价值从来不在代码本身而在于它帮你缩短了从“发现问题”到“解决问题”的距离。本文还有配套的精品资源点击获取简介用Python写的轻量级知乎数据采集脚本基于requests发起HTTP请求配合BeautifulSoup4解析网页结构能自动获取指定知乎问题页的完整信息。支持提取问题ID、标题、发布时间、所属话题每个问题下所有回答的正文、回答人昵称、发布时间、点赞数还能进一步爬取点赞用户的公开资料包括用户ID、总赞同数、感谢数、提问数和回答数。代码模块清晰主逻辑在zh_crawler.py中配置参数统一放在config.里方便调整目标URL、请求头User-Agent、请求间隔时间等。zh_utils.py封装了HTML文本清洗、时间格式标准化、JSON文件保存等常用功能。附带test_crawler.py用于快速验证流程questions_list.txt可批量导入问题链接requirements.txt列明依赖包LICENSE为MIT协议适合做静态页面结构分析、HTTP协议实操和小规模数据采集练习。本文还有配套的精品资源点击获取

数据预处理全流程解析：从EDA到特征工程的系统性方法

1. 数据预处理：从混乱到洞察的必经之路如果你曾经一头扎进数据分析或机器学习项目，大概率有过这样的体验：兴冲冲地找来一份数据集，摩拳擦掌准备大干一场，结果刚打开数据就傻眼了——缺失值遍地开花，文本里混…

2026/6/1 6:46:23 阅读更多

避开建模‘深坑’：LCL滤波器参数对并网稳定性的影响到底该怎么分析？

LCL滤波器参数实战指南：如何用频域分析避开并网稳定性陷阱当你在实验室调试一台500kW光伏逆变器时，突然听到LCL滤波器发出刺耳的啸叫声，示波器上的电流波形开始剧烈振荡——这种场景对很多电力电子工程师来说并不陌生。LCL滤波器作为并网变流…

2026/6/1 6:46:23 阅读更多

基于AI智能体与知识图谱的个性化烹饪助手：从规划到执行的系统实践

1. 项目概述：当AI成为你的私人厨房管家“今晚吃什么？”——这大概是每个家庭每天都要上演的灵魂拷问。更别提后续的步骤了：打开冰箱，面对一堆零零散散的食材发呆；打开手机App，在成千上万的菜谱里大海捞针&a…

2026/6/1 6:44:02 阅读更多

de4dot终极指南：如何免费解密被混淆的.NET程序集

de4dot终极指南：如何免费解密被混淆的.NET程序集【免费下载链接】de4dot .NET deobfuscator and unpacker. 项目地址: https://gitcode.com/gh_mirrors/de/de4dot 你是否曾经面对一个被混淆的.NET程序集，看着那些难以理解的变量名和混乱的控制流…

2026/6/1 15:04:09 阅读更多

Arduino红外遥控控制LED灯：从仿真到实物的完整实践指南

1. 项目概述与核心思路红外遥控控制多彩LED灯，听起来像是智能家居的入门玩法，但把它做稳、做透，里面有不少门道。我折腾过不少Arduino项目，发现很多新手卡在几个地方：一是红外信号收不稳，二是LED颜色控制逻…

2026/6/1 15:04:09 阅读更多

零门槛在Windows上安装安卓应用：APK Installer完整指南

零门槛在Windows上安装安卓应用：APK Installer完整指南【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 想在Windows电脑上直接运行安卓应用却不想安装臃肿的…

2026/6/1 15:03:09 阅读更多

解锁Windows安卓应用安装：APK-Installer技术解析与实战指南

解锁Windows安卓应用安装：APK-Installer技术解析与实战指南【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 在Windows生态中运行安卓应用一直是技术爱好者和…

2026/6/1 15:03:09 阅读更多

QMCDecode终极指南：macOS上轻松解锁QQ音乐加密格式

QMCDecode终极指南：macOS上轻松解锁QQ音乐加密格式【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac，qmc0,qmc3转mp3, mflac,mflac0等转flac)，仅支持macOS，可自动识别到QQ音乐下载目录，默认转换…

2026/6/1 15:03:09 阅读更多

基于私有知识库构建专属AI助手：RAG技术实践与Telegram机器人实现

1. 项目概述：打造你的专属知识库AI助手最近在折腾一个挺有意思的东西，我把它叫做“AnythingGPT”。简单来说，就是创建一个能真正理解你特定领域知识、并像专家一样回答问题的聊天机器人。这玩意儿不是简单地把一堆文档扔给ChatGPT然后让它“看…

2026/6/1 15:01:47 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/1 0:06:19 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/1 0:24:01 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/1 2:19:25 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/1 0:23:56 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

2026/6/1 0:06:19 阅读更多

相关文章

数据预处理全流程解析：从EDA到特征工程的系统性方法

避开建模‘深坑’：LCL滤波器参数对并网稳定性的影响到底该怎么分析？

基于AI智能体与知识图谱的个性化烹饪助手：从规划到执行的系统实践

de4dot终极指南：如何免费解密被混淆的.NET程序集

Arduino红外遥控控制LED灯：从仿真到实物的完整实践指南

零门槛在Windows上安装安卓应用：APK Installer完整指南

解锁Windows安卓应用安装：APK-Installer技术解析与实战指南

QMCDecode终极指南：macOS上轻松解锁QQ音乐加密格式

基于私有知识库构建专属AI助手：RAG技术实践与Telegram机器人实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因