大小单与长短单的241个碰撞火花:海量Level 2数据因子挖掘系列(三)
【摘要】
在每个交易日中,股票的交易订单大小不一,而其中的大订单常常被认为是信息优势者发出的主力订单,对股票价格的未来走势具有揭示作用。
在股票交易所的订单撮合中,同一笔委托可能会由于对手下单数量的不同而被拆解为多个订单成交,而拆解后的多个订单既可能在短时间内连续完成,也可能在较长的一段时间内分散完成。
本文基于前序研究《多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)》和《订单维度解耦的22个长短单因子:海量Level 2数据因子挖掘系列(二)》,继续从level-2逐笔订单数据出发,同时从订单的“大小”和“长短”角度出发,并结合时间维度和订单维度的多维度解耦分析方法,构建出了241个订单因子。其中,在20210101~20231231期间以20日进行换仓,RankIC均值大于8%的因子数量超过50个。
一、Level-1与Level-2数据如何能在股票市场的博弈中胜出?关键在于对市场信息的掌握和对市场规律的理解。对于量化投资者来说,更在于对数据的全面收集和深度分析,并结合数学模型和算法,从海量数据中挖掘出隐藏的市场规律。这些规律可能是某些股票价格的趋势,市场的周期性波动,抑或是短期的交易信号。一旦这些规律被发现并加以利用,量化投资者便能在股票市场的博弈中获得优势。
股票行情数据源于上交所和深交所,根据数据的频率和丰富度通常分为Level 1数据和Level 2数据。如下图所示,Level 1数据为3秒一笔的快照(Snapshot)数据,包含了常用行情软件上可以看到的最高价、最低价、开盘价、收盘价、成交量、成交额、成交笔数、委买委卖量、5档申买申卖价、5档申买申卖量等数据。
而相比数据频率较低、数据丰富度有限的Level 1数据,Level 2数据中则不仅提供了更为丰富的快照(Snapshot)数据,如10档申买申卖价、10档申买申卖量、最优买卖价前50笔委托、买卖委托价位数、买卖撤单信息等,而且提供了Level 1数据中所不包含的逐笔订单(Tick)数据。
逐笔订单数据包含了当日交易时段中集合竞价和连续竞价的每一笔订单数据,其中的关键信息包括精确到毫秒的订单时间、逐笔序号、频道代码、价格、数量、金额、买入卖出订单号和订单类别等详细数据。Level 2数据中的逐笔订单数据是一切行情数据的根源,不同频率的快照数据均由逐笔订单数据聚合而成。
在“海量Level 2数据因子挖掘”系列研究报告中,将尝试对Level 2数据中详细的快照数据和逐笔订单数据进行深入分析并加以利用,有望能够从中获得更为丰富的价格趋势、周期波动、交易信号等规律和信息,从而挖掘出更为有效的因子,构建出具有超额收益的股票投资组合。
二、相关研究工作
在前序研究《多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)》中,从所有行情数据的根源——Level 2逐笔订单出发,通过“大小订单”的角度对所有交易订单进行窥探,结合多维度解耦的分析方法构建出了多个有效的大小单因子,并从中挑选出表现优异者构建出了精选大小单因子组合,在A股全市场及各大板块中均取得了较为突出的表现。
而在前序研究《订单维度解耦的22个长短单因子:海量Level 2数据因子挖掘系列(二)》中,则通过“订单成交完成时长”的角度继续对Level 2逐笔订单数据展开研究,通过订单维度的解耦分析方法构建出了22个有效的长短单因子,并从中挑选出表现优异者构建出了精选长短单因子组合,在A股全市场及各大板块中均取得了较为突出的表现。
本文首先对前序研究中的大小单因子和长短单因子之间的相关性采用spearman相关系数进行计算,其中所有因子均采用原始值(未经平滑计算)。由于因子数量众多,这里采用以“均值+1.0倍标准差”作为大小单或长短单判断标准的因子进行相关性计算,结果如下表所示。整体而言,大小单因子和长短单因子之间的相关性较低,相关系数范围在-0.19~0.19之间,这表明“大小”和“长短”是衡量逐笔订单的两个较为独立的维度。
有了以上研究基础和初步结论,本文作为“海量Level 2数据因子挖掘”系列研究报告的第三篇,将进一步尝试同时结合订单的“大小”和“长短”维度对其进行深入剖析,谋求挖掘出更有效的Level 2因子。
三、从“大小”和“长短”进行解构的订单因子在每个交易日中,股票的交易订单大小不一,而其中的大订单常常被认为是信息优势者发出的主力订单,对股票价格的未来走势具有揭示作用。而在股票交易所的订单撮合中,同一笔委托可能会由于对手下单数量的不同而被拆解为多个订单成交,而拆解后的多个订单既可能在短时间内连续完成,也可能在较长的一段时间内分散完成,即不同委托订单的成交完成时间并不相同。
因此,可以同时从订单的“大小”和“长短”角度对其进行解构,并采用订单维度的解耦分析方法,结合同一笔订单中的“买入订单号”和“卖出订单号”属性,同时从买入和卖出两个角度进行分析,构建出相应的16种订单因子,如下表所示。其中“大买_长买_大卖_长卖”因子“BigBuy_LongBuy_BigSell_LongSell”缩写为“BB_LB_BS_LS”,以此类推。
对于订单的“大小”和“长短”界定,本文采用前序研究《多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)》和《订单维度解耦的22个长短单因子:海量Level 2数据因子挖掘系列(二)》中的划分方法:将成交量(成交完成时长)大于均值+N倍标准差的订单界定为大单(长单),剩余的则相应地界定为小单(短单),并分别采用3个不同的标准差阈值来对大小单(长短单)进行界定。
假设买卖订单中的成交量服从如下图所示的高斯分布,则买卖订单中成交量(成交完成时长)大于均值+1.0倍标准差的大单(长单)约占15.8%,大于均值+1.5倍标准差的大单(长单)约占6.7%,大于均值+2.0倍标准差的大单(长单)约占2.3%,以此基于3种不同阈值构建出16*3=48个同时从“大小”和“长短”进行解构的订单因子,比如“BB_LB_BS_LS_1p0”代表以均值+1.0倍标准差为大小(长短)订单划分阈值构建的因子。
此外,如前序研究《多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)》中所言,隔夜知情交易者通常会在第二天开盘后迅速根据已掌握的信息进行买入或卖出,以谋求更大的收益或减少踩踏。具体而言,开盘后15分钟或30分钟内的大小订单信息尤其值得关注,类似的现象有时也会出现在收盘前15分钟或30分钟内。
因此,本文进一步采用时间维度的解耦分析方法,结合不同交易时段的统计信息对上述48个因子进行解耦。其中,本文采用全日连续竞价交易时段、开盘后15分钟、开盘后30分钟、收盘前30分钟、收盘前15分钟这5个时段,分别以09301457、09300945、09301000、14301457、14451457作为因子名称的后缀予以区分。
比如,“BB_LB_BS_LS_1p0_09301457”代表以均值+1.0倍标准差为大小(长短)订单划分阈值,以全日连续竞价交易时段作为统计口径的“大买_长买_大卖_长卖”因子。综上所述,本文共构建了16*3*5=240个同时从“大小”和“长短”进行解构的订单因子。
上述240个因子在2021年1月1日~2023年12月31日期间A股全市场的RankIC表现如下表所示,其中分别统计了原始因子值与未来5个、20个交易日收益的相关性,以及5日平滑因子和20日平滑因子分别与未来5个、20个交易日收益的相关性。
从统计结果来看,在20日换仓条件下,上述240个因子中有超过50个因子的RankIC均值大于8%,其中有18个因子的RankIC大于10%。整体而言,本文挖掘出了一大批可观的有效逐笔订单因子。
四、精选订单因子组合
进一步的,本文从上述240个基于“大小”和“长短”进行解构的订单因子中挑选出表现优异者,构建出精选订单因子组合,并对其在各大板块上进行回测。实证分析结果表明,精选订单因子组合取得了较为出色的表现。
- 选股范围:全市场,创业板,国证2000,沪深300,中证500,中证800,中证1000
- 股票预处理:剔除摘牌、ST/*ST、涨跌停、上市未满一年股票
- 回测区间:2021年1月~2024年5月
- 回测路径:以多路径回测均值作为统计数据
- 组合构建:采用因子值排序后的前K个股票构建Top-K组合
- 调仓策略:每20个交易日,根据t日因子值以t+1日均价买入,t+21日均价卖出
- 交易费率:双边千分之三(卖出时收取)
五、精选大小单因子组合回测表现(2021.01~2024.05)
在全市场范围内:精选大小单因子组合RankIC均值为13.2%、胜率为78.9%。
在创业板板块内:精选大小单因子组合RankIC均值为13.2%、胜率为82.6%。
在国证2000范围内:精选大小单因子组合RankIC均值为12.9%、胜率为77.0%。
在沪深300板块内:精选大小单因子组合RankIC均值为11.0%、胜率为66.0%。
在中证500板块内:精选大小单因子组合RankIC均值为11.4%、胜率为64.6%。
在中证800板块内:精选大小单因子组合RankIC均值为11.5%、胜率为66.2%。
在中证1000板块内:精选大小单因子组合RankIC均值为11.1%、胜率为69.2%。
六、总结与展望
在前序研究《多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)》中,从所有行情数据的根源——Level 2逐笔订单出发,通过“大小订单”的角度对所有交易订单进行窥探,结合多维度解耦的分析方法构建出了多个有效的大小单因子,并从中挑选出表现优异者构建出了精选大小单因子组合,在A股全市场及各大板块中均取得了较为突出的表现。
而在前序研究《订单维度解耦的22个长短单因子:海量Level 2数据因子挖掘系列(二)》中,则通过“订单成交完成时长”的角度继续对Level 2逐笔订单数据展开研究,通过订单维度的解耦分析方法构建出了多个有效的长短单因子,并从中挑选出表现优异者构建出了精选长短单因子组合,在A股全市场及各大板块中均取得了较为显著的超额收益
本文首先对前序研究中的大小单因子和长短单因子之间的相关性采用spearman相关系数进行计算。从测算结果来看,大小单因子和长短单因子之间的相关性较低,相关系数范围在-0.19~0.19之间,这表明“大小”和“长短”是衡量逐笔订单的两个较为独立的维度。
有了以上研究基础和初步结论,本文作为“海量Level 2数据因子挖掘”系列研究报告的第三篇,同时结合订单的“大小”和“长短”维度对Level 2逐笔订单数据进行深入剖析,构建出了240个从“大小”和“长短”角度进行解构的订单因子。
本文进一步从上述240个因子中挑选出表现优异者,构建出精选订单因子组合。具体而言,采用因子值排序后的前K个股票构建Top-K组合,以t+1日均价买入,20个交易日换仓,双边千三计费,实证结果表明精选订单因子组合在A股全市场及各大板块中均取得了较为出色的表现。
全市场板块:在2021~2023年间,精选订单因子组合的RankIC均值达13.3%、胜率达78.3%,Top-30组合的平均年化收益率为31.33%、最大回撤率为15.39%、夏普比率为1.86,而同期中证全指年化收益率为-8.50%。
创业板板块:在2021~2023年间,精选订单因子组合的RankIC均值达13.7%、胜率达83.4%,Top-30组合的平均年化收益率为27.66%、最大回撤率为25.45%、夏普比率为1.30,而同期创业板综指年化收益率为-7.46%。
国证2000板块:在2021~2023年间,精选订单因子组合的RankIC均值为12.7%,胜率为76.5%,Top-30组合的平均年化收益率为25.00%、最大回撤率为17.50%、夏普比率为1.44,而同期国证2000指数平均年化收益率为1.22%,精选订单因子组合取得了较为显著的超额收益。
展望未来,“海量Level 2数据因子挖掘”系列研究报告将继续深入Level 2数据,从海量数据中挖掘出隐藏的市场规律,构建出更多的有效因子。