别再手动整理了！Akshare一键抓取同花顺行业与成分股，构建你的本地股票数据库

发布时间：2026/6/2 2:16:11

用Akshare打造自动化股票数据仓库从零构建本地化金融数据库在量化投资和金融研究领域数据是决策的基础。传统的手动收集和整理股票数据不仅耗时耗力而且难以保证数据的时效性和一致性。本文将带你使用Akshare这一强大的开源金融数据接口结合Python的面向对象编程思想构建一个自动化、可扩展的本地股票数据库系统。1. 为什么需要本地股票数据库每次分析前临时爬取数据的方式存在几个明显缺陷网络请求不稳定导致数据获取失败、频繁请求可能触发反爬机制、历史数据难以追溯对比。而建立本地数据库可以提高研究效率数据随时可用无需等待网络请求保证数据一致性所有分析基于同一时间点的数据快照便于历史回溯存储多个时间点的数据用于趋势分析降低网络依赖离线环境下仍可进行研究工作关键组件对比组件类型临时爬取本地数据库数据可用性依赖网络随时可用历史版本难以保存完整存档请求频率受限制仅需定期更新分析效率每次重新获取直接加载2. Akshare基础环境配置Akshare是一个基于Python的金融数据接口库支持股票、期货、基金等多种金融数据获取。在开始构建我们的系统前需要完成基础环境搭建。2.1 安装必要依赖首先确保已安装Python 3.7环境然后通过pip安装所需包pip install akshare pandas tqdm sqlalchemyakshare: 核心数据获取接口pandas: 数据处理与分析tqdm: 进度条显示sqlalchemy: 数据库ORM支持2.2 验证Akshare可用性安装完成后可以通过简单测试确认环境正常import akshare as ak # 测试获取A股实时行情数据 df ak.stock_zh_a_spot() print(f成功获取{len(df)}条A股实时数据)3. 构建行业数据采集系统我们将采用面向对象的设计思想创建一个可扩展的数据采集框架而不仅仅是写一次性脚本。3.1 核心类设计class StockDatabase: 股票数据库核心类 def __init__(self, data_dirstock_data): self.data_dir Path(data_dir) self.data_dir.mkdir(exist_okTrue) self.industry_file self.data_dir / industry.csv def update_industry_data(self, delay3): 更新行业分类数据 industry_df ak.stock_board_industry_summary_ths() records [] for industry in tqdm(industry_df.to_dict(records), desc更新行业数据): time.sleep(delay) # 礼貌性延迟 stocks ak.stock_board_industry_cons_ths(symbolindustry[板块]) stocks[行业] industry[板块] records.extend(stocks.to_dict(records)) pd.DataFrame(records).to_csv(self.industry_file, indexFalse) return records这个基础版本已经实现了行业数据的获取和保存功能但我们可以进一步优化3.2 增强功能实现断点续传记录已获取的行业意外中断后可从断点继续增量更新只获取新增或变更的数据减少请求量异常处理网络波动时的重试机制改进后的代码片段def update_industry_data(self, delay3, max_retry3): 增强版行业数据更新 if self.industry_file.exists(): existing set(pd.read_csv(self.industry_file)[行业].unique()) else: existing set() industry_df ak.stock_board_industry_summary_ths() records [] for industry in tqdm(industry_df.to_dict(records), desc更新行业数据): if industry[板块] in existing: continue for attempt in range(max_retry): try: stocks ak.stock_board_industry_cons_ths( symbolindustry[板块]) stocks[行业] industry[板块] records.extend(stocks.to_dict(records)) break except Exception as e: if attempt max_retry - 1: raise time.sleep(2 ** attempt) time.sleep(delay) if records: df pd.DataFrame(records) if self.industry_file.exists(): old_df pd.read_csv(self.industry_file) df pd.concat([old_df, df]).drop_duplicates() df.to_csv(self.industry_file, indexFalse)4. 数据持久化与数据库集成CSV文件适合初步存储但随着数据量增长我们需要更专业的存储方案。4.1 SQLite数据库集成SQLite是轻量级数据库无需服务器即可使用非常适合个人量化研究。from sqlalchemy import create_engine class StockDatabase: # ... 初始化方法补充 ... def __init__(self, data_dirstock_data): self.data_dir Path(data_dir) self.data_dir.mkdir(exist_okTrue) self.db_engine create_engine(fsqlite:///{self.data_dir}/stock.db) def init_database(self): 初始化数据库表结构 with self.db_engine.connect() as conn: conn.execute( CREATE TABLE IF NOT EXISTS industries ( id INTEGER PRIMARY KEY AUTOINCREMENT, name TEXT NOT NULL, update_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP ) ) conn.execute( CREATE TABLE IF NOT EXISTS stocks ( code TEXT PRIMARY KEY, name TEXT NOT NULL, industry_id INTEGER, price REAL, FOREIGN KEY (industry_id) REFERENCES industries (id) ) )4.2 数据入库方法def save_to_database(self, records): 将数据保存到数据库 with self.db_engine.begin() as conn: # 先处理行业数据 industries {r[板块] for r in records} industry_map {} for industry in industries: result conn.execute( INSERT OR IGNORE INTO industries (name) VALUES (?), (industry,) ) if result.lastrowid: industry_map[industry] result.lastrowid else: row conn.execute( SELECT id FROM industries WHERE name ?, (industry,) ).fetchone() industry_map[industry] row[0] # 再处理股票数据 for record in records: conn.execute( INSERT OR REPLACE INTO stocks (code, name, industry_id, price) VALUES (?, ?, ?, ?) , ( record[代码], record[名称], industry_map[record[板块]], record[最新价] ))5. 系统扩展与高级功能基础框架搭建完成后我们可以考虑添加更多实用功能。5.1 定时自动更新使用Python的schedule库实现定时任务import schedule import time def job(db): print(开始定时更新数据...) db.update_industry_data() print(数据更新完成) db StockDatabase() schedule.every().day.at(18:00).do(job, db) while True: schedule.run_pending() time.sleep(60)5.2 数据可视化分析结合matplotlib或plotly进行简单的数据分析def analyze_industry_distribution(db): 分析行业分布 with db.db_engine.connect() as conn: df pd.read_sql( SELECT i.name as industry, COUNT(s.code) as stock_count FROM industries i LEFT JOIN stocks s ON i.id s.industry_id GROUP BY i.name ORDER BY stock_count DESC , conn) plt.figure(figsize(12, 6)) sns.barplot(xstock_count, yindustry, datadf) plt.title(各行业股票数量分布) plt.tight_layout() plt.show()5.3 数据质量监控添加数据校验机制确保采集的数据质量def validate_data(self): 验证数据质量 with self.db_engine.connect() as conn: # 检查是否有重复股票代码 duplicates pd.read_sql( SELECT code, COUNT(*) as cnt FROM stocks GROUP BY code HAVING cnt 1 , conn) # 检查是否有空值 nulls pd.read_sql( SELECT SUM(CASE WHEN code IS NULL THEN 1 ELSE 0 END) as null_codes, SUM(CASE WHEN name IS NULL THEN 1 ELSE 0 END) as null_names FROM stocks , conn) if not duplicates.empty: print(f警告发现{len(duplicates)}条重复股票记录) if nulls.iloc[0].sum() 0: print(f警告发现{nulls.iloc[0].sum()}个空值字段)6. 性能优化与最佳实践随着数据量增长我们需要考虑系统性能问题。6.1 批量插入优化使用SQLAlchemy的批量插入功能大幅提高数据写入速度from sqlalchemy import insert def bulk_save_stocks(self, records): 批量保存股票数据 industries {r[板块] for r in records} industry_map {} with self.db_engine.begin() as conn: # 批量处理行业 stmt insert(Industries.__table__).prefix_with(OR IGNORE) conn.execute(stmt, [{name: name} for name in industries]) # 获取行业ID映射 result conn.execute( SELECT id, name FROM industries WHERE name IN :names, {names: tuple(industries)} ) industry_map {row.name: row.id for row in result} # 批量插入股票数据 stock_data [{ code: r[代码], name: r[名称], industry_id: industry_map[r[板块]], price: r[最新价] } for r in records] stmt insert(Stocks.__table__).prefix_with(OR REPLACE) conn.execute(stmt, stock_data)6.2 内存管理技巧处理大数据量时合理控制内存使用def update_large_scale(self, batch_size500): 分批处理大数据量更新 industry_df ak.stock_board_industry_summary_ths() total len(industry_df) for start in tqdm(range(0, total, batch_size), desc批量更新行业数据): batch industry_df.iloc[start:startbatch_size] records [] for industry in batch.to_dict(records): stocks ak.stock_board_industry_cons_ths(symbolindustry[板块]) stocks[行业] industry[板块] records.extend(stocks.to_dict(records)) time.sleep(1) # 控制请求频率 self.bulk_save_stocks(records) del records # 及时释放内存6.3 日志记录与监控添加完善的日志记录便于问题排查import logging from datetime import datetime class StockDatabase: def __init__(self, data_dirstock_data): self.logger logging.getLogger(StockDatabase) self.logger.setLevel(logging.INFO) handler logging.FileHandler(self.data_dir / database.log) formatter logging.Formatter( %(asctime)s - %(levelname)s - %(message)s) handler.setFormatter(formatter) self.logger.addHandler(handler) def update_industry_data(self): self.logger.info(开始更新行业数据) try: # ... 原有更新逻辑 ... self.logger.info(f成功更新{len(records)}条股票数据) except Exception as e: self.logger.error(f更新失败: {str(e)}) raise7. 实际应用案例最后我们来看几个实际应用场景展示如何利用这个本地数据库进行研究。7.1 行业轮动分析def industry_rotation_analysis(db, start_date, end_date): 行业轮动分析 # 获取历史行业数据需要扩展数据库存储历史 with db.db_engine.connect() as conn: df pd.read_sql( SELECT date, industry, AVG(price_change) as avg_change FROM historical_industry_data WHERE date BETWEEN ? AND ? GROUP BY date, industry , conn, params(start_date, end_date)) # 计算行业排名变化 df[rank] df.groupby(date)[avg_change].rank(ascendingFalse) pivot_df df.pivot(indexdate, columnsindustry, valuesrank) # 可视化分析 plt.figure(figsize(15, 8)) sns.heatmap(pivot_df, cmapYlGnBu) plt.title(行业排名热力图) plt.show()7.2 股票相关性网络def stock_correlation_network(db, industryNone, threshold0.7): 构建股票相关性网络 with db.db_engine.connect() as conn: if industry: stocks pd.read_sql( SELECT code, name FROM stocks WHERE industry_id ( SELECT id FROM industries WHERE name ? ) , conn, params(industry,)) else: stocks pd.read_sql(SELECT code, name FROM stocks, conn) # 获取股票历史价格数据简化示例 prices {} for code in stocks[code]: prices[code] ak.stock_zh_a_hist(symbolcode, perioddaily).set_index(日期)[收盘] price_df pd.DataFrame(prices) corr_matrix price_df.corr() # 构建网络图 G nx.Graph() for i, code1 in enumerate(stocks[code]): for j, code2 in enumerate(stocks[code]): if i j and abs(corr_matrix.loc[code1, code2]) threshold: G.add_edge( stocks.loc[i, name], stocks.loc[j, name], weightcorr_matrix.loc[code1, code2] ) plt.figure(figsize(12, 12)) pos nx.spring_layout(G) nx.draw_networkx_nodes(G, pos, node_size50) nx.draw_networkx_edges(G, pos, alpha0.2) nx.draw_networkx_labels(G, pos, font_size8) plt.title(f{industry or 全市场}股票相关性网络) plt.show()在实际项目中这个数据库系统已经帮助我节省了大量数据准备时间使我可以更专注于策略开发本身。特别是在网络不稳定的情况下本地存储的数据成为了可靠的研究基础。

CAPL自动化UDS解锁：从单次脚本到通用库的设计思考与避坑指南

CAPL自动化UDS解锁：从单次脚本到通用库的设计思考与避坑指南在汽车电子控制单元（ECU）的开发和测试过程中，UDS（Unified Diagnostic Services）安全解锁是一个常见但关键的环节。对于中高级CAPL开发者和测试架…

2026/6/2 2:16:11 阅读更多

告别命令行恐惧：用GParted在Ubuntu上无损调整磁盘分区（保姆级图文教程）

告别命令行恐惧：用GParted在Ubuntu上无损调整磁盘分区（保姆级图文教程） 刚接触Linux的新手往往对命令行工具望而生畏，尤其是在处理磁盘分区这种高风险操作时。想象一下：你刚装好Ubuntu系统，却发现根分区(/…

2026/6/2 2:14:10 阅读更多

Qwen3.6-35B-A3B-GGUF提示工程完全指南：图像文本交互最佳实践

Qwen3.6-35B-A3B-GGUF提示工程完全指南：图像文本交互最佳实践【免费下载链接】Qwen_Qwen3.6-35B-A3B-GGUF 项目地址: https://ai.gitcode.com/hf_mirrors/bartowski/Qwen_Qwen3.6-35B-A3B-GGUF Qwen3.6-35B-A3B-GGUF是一款强大的多模态AI模型，专…

2026/6/2 2:13:09 阅读更多

PyTorch新手避坑：flatten()方法返回的是视图还是副本？一个例子讲清楚

PyTorch张量展平操作的内存陷阱：从flatten()底层机制到实战避坑指南刚接触PyTorch时，我曾在模型调试中遇到一个诡异现象：修改展平后的张量竟然意外改变了原始张量的值，导致模型训练出现难以追踪的异常。这个问题困扰了我整整两天&…

2026/6/2 3:00:17 阅读更多

从智能开关到气象站：用ESP8266-12F模块DIY你的第一个物联网项目（附完整代码）

从智能开关到气象站：用ESP8266-12F模块DIY你的第一个物联网项目（附完整代码）当你第一次拿起ESP8266-12F这个比硬币大不了多少的模块时，很难想象它能成为连接物理世界与数字世界的桥梁。这个售价不到20元的小玩意儿，内置…

2026/6/2 3:00:17 阅读更多

别再乱设sql_mode了！深入解读KingbaseES的STRICT_ALL_TABLES与字符截断背后的逻辑

深入解析KingbaseES的字符串处理机制：从sql_mode到字符截断的底层逻辑在数据库应用开发中，字符串处理是最基础却又最容易引发问题的环节之一。当开发者面对"字符串过长"这一常见场景时，不同数据库产品的默认行为差异往往会导致意料…

2026/6/2 2:59:17 阅读更多

别再让用户手动输入了！微信小程序一键获取手机号登录（附C#/.NET Core后端完整代码）

微信小程序一键获取手机号登录：从用户体验到后端实战登录流程是用户接触产品的第一道门槛，而传统的手动输入手机号验证码方式，正在成为用户体验的隐形杀手。想象一下：用户需要切换应用查看短信，再返回小程序输入6位验证…

2026/6/2 2:59:17 阅读更多

保姆级教程：在Ubuntu 20.04 + ROS Noetic下，用usb_cam搞定棋盘格标定（附打印标定板PDF）

零成本实战：Ubuntu 20.04ROS Noetic下USB摄像头标定全指南当你第一次尝试让机器人"看清"世界时，相机标定就像给机器人的眼睛配一副精准的眼镜。想象一下，如果人类的眼睛看到的棋盘格都是扭曲的，我们永远无法准确判断物…

2026/6/2 2:58:36 阅读更多

手把手拆解HBM：从TSV、凸块到混合键合，AI服务器高带宽内存的封装实战与选型指南

手把手拆解HBM：从TSV、凸块到混合键合，AI服务器高带宽内存的封装实战与选型指南在AI算力爆发的今天，内存带宽已成为制约系统性能的关键瓶颈。传统GDDR内存的带宽提升路径逐渐触顶，而HBM（High Bandwidth Memory&#xf…

2026/6/2 2:58:36 阅读更多

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地摘要 Tool Calling 是大模型系统从“会回答”走向“会执行”的关键能力。很多文章只停留在 @Tool 注解和 Hello World 级别示例，但一旦进入生产环境，问题很快从“怎么调用”升级为“怎么控延迟、怎么控风…

2026/6/2 0:01:22 阅读更多

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

在智能视频分析（IVA）与产业物联网（IoT）大行其道的今天，政企级安防项目的落地依然面临着严重的碎片化挑战。对于系统集成商和独立软件开发商（ISV）而言，传统的流媒体研发存在两大核心痛…

2026/6/2 0:03:04 阅读更多

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

在泛安防与产业物联网（IoT）工程落地中，系统集成商与技术团队往往深陷于底层流媒体对接的碎片化泥潭。一方面，前端摄像机、IPC、NVR 品牌林立（如海康、大华、宇视等），其 GB28181 国标协议的信令交…

2026/6/2 0:03:04 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/1 0:24:01 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/1 2:19:25 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章