【技术分享】用python开发的微博采集软件,附代码实现细节 我自己独立开发的爬微博聚合软件发布v2.0版新增用户信息采集即批量输入用户主页采集用户信息。采集字段共29个含用户主页链接 uid 昵称 性别 IP属地 所在地 认证类型 认证信息 一句话描述 简介 粉丝数 关注数 微博数 总转发数 总评论数 总点赞数 转评赞总数 阳光信用 芝麻信用 会员等级 是否实名 个性域名 微号 用户标签 头部用户 明星标识 头像URL 生日 注册时间这个软件是全程用python语言开发。主要技术分工序号模块用途1tkinter构建gui图形用户界面2requests负责发送网络爬虫请求3json解析服务器返回的响应数据4pandas处理并保存为csv数据结果5logging记录运行过程中的日志部分代码实现发送请求并解析数据# 发送请求rrequests.get(url,headersh1,paramsparams)# 解析数据json_datar.json()解析响应数据以“评论内容”字段为例fordatainjson_data[data]:# 评论内容textdata[text_raw]text_list.append(text)保存结果数据到csv文件# 保存数据dfpd.DataFrame({微博链接:weibo_url,微博id:weibo_id,页码:page,评论者昵称:screen_name_list,评论者粉丝数:followers_count_list,评论者关注数:friends_count_list,评论者主页链接:user_home_url_list,评论者性别:gender_list,评论者签名:desc_list,评论时间:create_time_list,点赞数:like_counts_list,评论内容IP属地:source_list,评论级别:comment_level_list,评论内容:text_list,})# 保存csv文件df.to_csv(self.result_file,modea,indexFalse,headerheader,encodingutf_8_sig)self.tk_show(结果保存成功:{}.format(self.result_file))底部版权声明# 版权信息copyrighttk.Label(root,text马哥python说 All rights reserved.,font(仿宋,10),fggrey)copyright.place(x290,y625)日志记录模块defget_logger(self):self.loggerlogging.getLogger(__name__)# 日志格式formatter[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s# 日志级别self.logger.setLevel(logging.DEBUG)# 控制台日志shlogging.StreamHandler()log_formatterlogging.Formatter(formatter,datefmt%Y-%m-%d %H:%M:%S)# info日志文件名info_file_nametime.strftime(%Y-%m-%d).log# 将其保存到特定目录case_dirr./logs/info_handlerTimedRotatingFileHandler(filenamecase_dirinfo_file_name,whenMIDNIGHT,interval1,backupCount7,encodingutf-8)以上技术实现部分仅做交流分享不擅长代码的同学或用户忽略即可。软件中也友好的附有cookie一键配置小工具方便文科生小白用户也能快速启用。详细的软件演示视频【工具演示】微博聚合采集软件本软件对应的仓库地址https://github.com/mashukui/weibo_one_spider以上就是今天的分享希望对有帮助的小伙伴提升效率更多精力专注于数据研究本身。