金融数据宝藏库:沪深Level2与高频数据拆解 被高频数据搞懵了硬盘空间就是这么没的。刚入坑那会儿总想用最细的数据结果光下载和整理就耗掉大半天策略还没写呢。今天简单聊聊几种常见的高频数据到底有啥区别主要是沪深股票这块。数据来源是CMES金融数据库我平时用得比较多就拿它来举例了。先说说最“重”的Level 2行情数据这可不是普通的分时图信息量大了不止一点。除了大家都能看到的五档买卖盘口价格和挂单量它还有委托队列。这个挺关键能让你看到挂在某个价位上的所有订单明细而不是一个加总的数字。有时候盘口看着挂了个大单但可能是一堆小单凑起来的稳定性完全不同。然后是Tick数据和分钟线新手很容易搞混其实它俩性格完全不一样。Tick数据市场每发生一笔成交或者报价有变动它就记一笔。像个实时播报员信息最原始也最细碎。数据量巨大做日级别以上的回测用它对电脑和钱包都是考验。分钟线比如1分钟、5分钟K线。它把一段时间内的Tick数据“打包”处理给出这个时间段内的开盘、收盘、最高、最低价以及累计成交量。数据规整多了适合大多数非超高频的策略研究。为了验证一个订单薄因子的效果我调取了CMES金融数据库中过去三年的部分股票Level 2数据进行回测光数据清洗和匹配就花了不少功夫。所以除非是做非常短线的交易真心建议先从分钟线数据上手。数据里一般包含哪些字段不同的数据表结构不一样但核心的跑不掉。比如Level 2的逐笔委托表一般会有时间戳精确到毫秒委托单号买卖方向委托价格和数量订单类型比如是撤单还是新单而分钟线数据就清爽多了主要是时间点、OHLC价格和成交量。选哪个完全看你的研究需求。别贪“细”合适最重要。对了这些数据通常都很大下载前最好确认一下自己的存储空间和处理能力。不然就像我当初一样兴致勃勃下了一堆结果打开都费劲。先聊这些吧希望能帮你省点时间。