Tushare取ST数据踩坑实录：namechange接口的重复记录和None值到底怎么处理？

发布时间：2026/5/24 12:20:46

Tushare取ST数据避坑指南从重复记录到精准清洗的完整解决方案金融数据分析中ST股票筛选是个绕不开的痛点。很多刚接触Tushare的开发者会发现看似简单的ST状态判断在实际操作中却暗藏玄机——特别是当namechange接口返回的数据出现重复记录和None值时原本清晰的筛选逻辑瞬间变得混乱不堪。本文将带你深入理解这些数据陷阱的形成机制并提供一套经过实战检验的解决方案。1. 为什么ST数据清洗如此棘手ST股票的特殊性决定了其数据处理难度。与普通股票不同ST状态会随时间动态变化而交易所公告与实际生效日期之间往往存在时间差。这就导致我们在处理ST状态时需要同时考虑多个维度时间维度ST状态的开始日期、结束日期、公告日期状态维度ST、*ST、撤销ST等不同状态转换数据质量维度接口返回的重复记录和缺失值以天马股份(002122.SZ)为例我们调用pro.namechange(ts_code002122.SZ)会得到这样的结果ts_codenamestart_dateend_dateann_datechange_reason002122.SZ天马股份20230228None20230227撤销ST002122.SZST天马20230110None20230107撤销*ST002122.SZST天马202301102023022720230107撤销*ST002122.SZ*ST天马20221102None20221101*ST002122.SZ*ST天马202211022023010920221101*ST仔细观察会发现每条ST状态变更记录都出现了两次——一次end_date为None另一次end_date为具体日期。这种数据冗余如果不处理会导致筛选结果出现严重偏差。2. 数据重复的根源分析理解数据问题的成因是解决它的第一步。经过对Tushare接口的多次测试和分析我们发现重复记录主要来源于数据更新机制当股票状态变更时Tushare会同时保留历史记录的原始版本和更新版本状态过渡期在ST状态正式生效前系统可能先插入一条end_date为None的预记录数据补全策略部分记录的end_date可能后期才被补充导致同一事件有两条记录这种设计虽然保证了数据的完整性却给实际使用带来了麻烦。特别是当我们想筛选某个特定日期的ST股票时重复记录会导致同一股票被多次计数None值影响日期范围判断筛选逻辑出现意外漏洞3. 高效清洗ST数据的四步法针对上述问题我们开发了一套四步清洗法能够高效处理ST数据中的各种异常情况。以下是具体实现步骤3.1 获取原始数据首先我们需要获取足够时间跨度的ST变更记录。考虑到ST状态通常不会持续超过3年我们可以只查询最近3年的数据import datetime import tushare as ts def get_st_data(trade_date): # 计算三年前的日期 start_date (datetime.datetime.strptime(trade_date, %Y%m%d) - datetime.timedelta(days365*3)).strftime(%Y%m%d) # 获取namechange数据 pro ts.pro_api() df pro.namechange(start_datestart_date, end_datetrade_date, fieldsts_code,name,start_date,end_date,ann_date,change_reason) return df3.2 筛选ST相关记录不是所有的名称变更都与ST状态有关我们需要过滤出真正相关的记录def filter_st_data(df): # 筛选ST和*ST记录 st_mask (df[change_reason] ST) | (df[change_reason] *ST) return df[st_mask]3.3 处理重复记录和None值这是最关键的步骤我们需要按end_date排序确保有效记录在前基于ts_code和start_date去重保留第一条记录def clean_st_data(df): # 按end_date排序None值会排在最后 df_sorted df.sort_values(byend_date, ascendingTrue) # 去除重复记录 df_clean df_sorted.drop_duplicates( subset[ts_code, start_date], keepfirst ) return df_clean3.4 精准筛选目标日期的ST股票最后我们需要判断目标日期是否落在ST状态的时间范围内def filter_by_date(df, trade_date): # 筛选目标日期在ST区间内的记录 condition ( (df[start_date] trade_date) ( (df[end_date] trade_date) | df[end_date].isna() ) ) return df[condition]4. 完整解决方案与性能优化将上述步骤组合起来我们得到完整的ST股票筛选函数def get_st_stocks(trade_date): 获取指定交易日的ST股票列表参数: trade_date (str): 交易日格式为YYYYMMDD 返回: DataFrame: 包含ST股票代码、名称、ST时间段等信息的DataFrame # 1. 获取原始数据 raw_data get_st_data(trade_date) # 2. 筛选ST相关记录 st_data filter_st_data(raw_data) # 3. 数据清洗 clean_data clean_st_data(st_data) # 4. 按日期筛选 result filter_by_date(clean_data, trade_date) return result这个方案的性能优势非常明显单次API调用避免了循环调用5000多次的低效操作本地处理速度快pandas的向量化操作效率极高内存占用合理只获取必要时间范围的数据在实际测试中筛选全市场某一天的ST股票只需要不到1秒的时间相比逐只股票查询的方法提升了数百倍效率。5. 高级应用与边界情况处理掌握了基础方法后我们还需要考虑一些特殊场景和优化空间5.1 处理ST状态转换的边界情况ST状态变更时有几个关键时间点需要特别注意公告日与生效日ST状态可能在公告后几天才正式生效状态叠加股票可能同时存在ST和*ST状态临时撤销ST状态可能被临时撤销后又恢复针对这些情况我们可以增强筛选条件# 在filter_by_date函数中添加缓冲期处理 buffer_days 3 trade_date_dt datetime.datetime.strptime(trade_date, %Y%m%d) buffer_date (trade_date_dt - datetime.timedelta(daysbuffer_days)).strftime(%Y%m%d) condition ( (df[start_date] trade_date) ( (df[end_date] buffer_date) | df[end_date].isna() ) )5.2 与其他数据源的交叉验证为提高准确性我们可以结合其他数据源进行验证每日行情数据检查股票名称是否包含ST或*ST财务指标数据查看是否触发了ST条件公告原文直接获取交易所的原始公告这种多源验证的方法虽然会增加一些复杂度但能极大提高结果的可靠性。5.3 性能优化技巧对于需要频繁查询ST状态的应用可以考虑以下优化数据缓存将ST记录保存到本地数据库避免重复调用API增量更新每天只获取最新的变更记录并行处理对于大批量查询可以使用多线程加速# 示例使用缓存装饰器 from functools import lru_cache lru_cache(maxsize100) def get_cached_st_data(trade_date): return get_st_data(trade_date)6. 实战案例构建ST股票监控系统将上述方法应用到实际场景中我们可构建一个简单的ST股票监控系统class STMonitor: def __init__(self, token): ts.set_token(token) self.pro ts.pro_api() self.cache {} def update_cache(self, end_date): 更新缓存数据 start_date self._get_3y_before(end_date) key f{start_date}_{end_date} if key not in self.cache: df self.pro.namechange(start_datestart_date, end_dateend_date) self.cache[key] self._process_data(df) return self.cache[key] def get_current_st(self, date): 获取指定日期的ST股票 data self.update_cache(date) return self._filter_by_date(data, date) def _get_3y_before(self, date): dt datetime.datetime.strptime(date, %Y%m%d) return (dt - datetime.timedelta(days365*3)).strftime(%Y%m%d) def _process_data(self, df): 数据处理流水线 st_data df[(df[change_reason]ST) | (df[change_reason]*ST)] return st_data.sort_values(end_date).drop_duplicates([ts_code,start_date]) def _filter_by_date(self, df, date): return df[(df[start_date]date) ((df[end_date]date)|df[end_date].isna())]这个监控系统具有以下特点自动缓存避免重复请求相同数据模块化设计各功能相互独立便于维护易于扩展可以添加邮件提醒、可视化等功能7. 常见问题与解决方案在实际使用中开发者可能会遇到以下典型问题Q1为什么有些ST股票没有被正确识别可能原因数据更新延迟尝试延长查询时间范围特殊ST类型未被包含检查change_reason字段股票刚刚被ST记录尚未入库Q2如何处理历史回溯测试中的ST状态解决方案使用asof合并技术确保使用当时已知的信息考虑公告日与实际生效日的时间差对结果进行抽样验证Q3数据量太大导致内存不足怎么办优化建议分批次处理数据按年份或行业使用dask等大数据处理工具只选择必要的字段进行查询Q4如何验证筛选结果的准确性验证方法与交易所官网公告对比检查股票名称中的ST标记与其他数据提供商的结果交叉验证8. 最佳实践与经验分享经过多个项目的实战检验我们总结出以下ST数据处理的最佳实践定期更新数据ST状态变化频繁建议每天更新记录处理日志保存每次筛选的参数和结果摘要便于回溯建立异常检测监控结果数量的异常波动可能意味着逻辑错误保持接口稳定Tushare偶尔会调整接口需要做好兼容处理一个实用的技巧是维护一个ST状态变更的时间线表格这样可以直观地查看每只股票的ST历史股票代码股票名称ST开始日期ST结束日期变更类型公告日期002122.SZ*ST天马2022110220230109*ST20221101002122.SZST天马2023011020230227撤销*ST20230107002122.SZ天马股份20230228None撤销ST20230227这种结构化表示不仅便于人工检查还能支持更复杂的时间序列分析。

京东抢购脚本终极指南：3步实现自动化秒杀茅台

京东抢购脚本终极指南：3步实现自动化秒杀茅台【免费下载链接】JDspyder 京东预约&抢购脚本，可以自定义商品链接项目地址: https://gitcode.com/gh_mirrors/jd/JDspyder 你是否曾经因为手速不够快而错失京东上的热门商品？面对茅台…

2026/5/24 12:20:25 阅读更多

可编程光子芯片加速极端学习机：原理、实现与优化策略

1. 项目概述：当光子芯片遇上极简机器学习如果你和我一样，既对前沿的光子计算充满好奇，又对传统AI训练那漫长的等待和惊人的能耗感到头疼，那么“可编程光子极端学习机”这个概念，绝对值得你花时间深入了解。这不仅仅是又…

2026/5/24 12:20:25 阅读更多

Tableau Server远程代码执行漏洞CVE-2025-26496深度解析

1. 这个漏洞不是“修一下补丁就完事”的普通问题Tableau Server CVE-2025-26496，光看编号你可能以为又是常规的权限绕过或信息泄露类CVE——但实际复现后我立刻改了判断：它是一条未经身份验证即可触发、可导致远程代码执行（RCE）的…

2026/5/24 12:20:04 阅读更多

QKeyMapper：Windows平台开源按键映射解决方案完全指南

QKeyMapper：Windows平台开源按键映射解决方案完全指南【免费下载链接】QKeyMapper [按键映射工具] QKeyMapper，Qt开发Win10&Win11可用，不修改注册表、不需重新启动系统，可立即生效和停止。支持游戏手柄映射到键鼠&#xff0c…

2026/5/24 12:57:02 阅读更多

Windows上安装APK的秘密武器：APK-Installer如何颠覆你的跨平台体验？

Windows上安装APK的秘密武器：APK-Installer如何颠覆你的跨平台体验？ 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经羡慕安卓用户丰富…

2026/5/24 12:56:02 阅读更多

Realtek USB网卡驱动实战：5分钟解锁NAS网络扩展新姿势

Realtek USB网卡驱动实战：5分钟解锁NAS网络扩展新姿势【免费下载链接】r8152 Synology DSM driver for Realtek RTL8152/RTL8153/RTL8156 based adapters 项目地址: https://gitcode.com/gh_mirrors/r8/r8152 当我们谈论NAS网络扩展时，很多人会想…

2026/5/24 12:56:02 阅读更多

【前端国际化】ICU消息格式：处理复杂翻译场景

【前端国际化】ICU消息格式：处理复杂翻译场景前言大家好，我是cannonmonster01！上一篇我们聊了i18next的基本用法，今天咱们来深入聊聊ICU消息格式。如果你曾经遇到过复数处理、性别差异、日期格式化等复杂翻译场景，…

2026/5/24 12:56:02 阅读更多

DLSS Swapper：智能游戏DLSS版本管理工具，轻松提升游戏性能

DLSS Swapper：智能游戏DLSS版本管理工具，轻松提升游戏性能【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper DLSS Swapper是一款免费开源的智能工具，专门为游戏玩家设计，能…

2026/5/24 12:55:01 阅读更多

如何快速掌握Vosk API：离线语音识别的完整实战指南

如何快速掌握Vosk API：离线语音识别的完整实战指南【免费下载链接】vosk-api Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node 项目地址: https://gitcode.com/GitHub_Trending/vo/vosk-api 你…

2026/5/24 12:54:00 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/24 9:50:45 阅读更多

相关文章

京东抢购脚本终极指南：3步实现自动化秒杀茅台

可编程光子芯片加速极端学习机：原理、实现与优化策略

Tableau Server远程代码执行漏洞CVE-2025-26496深度解析

QKeyMapper：Windows平台开源按键映射解决方案完全指南

Windows上安装APK的秘密武器：APK-Installer如何颠覆你的跨平台体验？

Realtek USB网卡驱动实战：5分钟解锁NAS网络扩展新姿势

【前端国际化】ICU消息格式：处理复杂翻译场景

DLSS Swapper：智能游戏DLSS版本管理工具，轻松提升游戏性能

如何快速掌握Vosk API：离线语音识别的完整实战指南

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥