集合竞价相关因子:海量Level-2数据因子挖掘系列(四)
【摘要】
开盘集合竞价和收盘集合竞价作为当天股票市场的开始和结束,其中的委托、成交、撤单情况反映了当天个股的活跃度等情况,与股票市场的未来走势存在关联性。因此,本文基于level2数据中的逐笔订单信息,利用集合竞价期间的委托、成交、撤单数据构建出了15个集合竞价相关因子。
一、Level-1与Level-2数据如何能在股票市场的博弈中胜出?关键在于对市场信息的掌握和对市场规律的理解。对于量化投资者来说,更在于对数据的全面收集和深度分析,并结合数学模型和算法,从海量数据中挖掘出隐藏的市场规律。这些规律可能是某些股票价格的趋势,市场的周期性波动,抑或是短期的交易信号。一旦这些规律被发现并加以利用,量化投资者便能在股票市场的博弈中获得优势。
股票行情数据源于上交所和深交所,根据数据的频率和丰富度通常分为Level 1数据和Level 2数据。如下图所示,Level 1数据为3秒一笔的快照(Snapshot)数据,包含了常用行情软件上可以看到的最高价、最低价、开盘价、收盘价、成交量、成交额、成交笔数、委买委卖量、5档申买申卖价、5档申买申卖量等数据。
而相比数据频率较低、数据丰富度有限的Level 1数据,Level 2数据中则不仅提供了更为丰富的快照(Snapshot)数据,如10档申买申卖价、10档申买申卖量、最优买卖价前50笔委托、买卖委托价位数、买卖撤单信息等,而且提供了Level 1数据中所不包含的逐笔订单(Tick)数据。
逐笔订单数据包含了当日交易时段中集合竞价和连续竞价的每一笔订单数据,其中的关键信息包括精确到毫秒的订单时间、逐笔序号、频道代码、价格、数量、金额、买入卖出订单号和订单类别等详细数据。Level 2数据中的逐笔订单数据是一切行情数据的根源,不同频率的快照数据均由逐笔订单数据聚合而成。
在“海量Level 2数据因子挖掘”系列研究报告中,将尝试对Level 2数据中详细的快照数据和逐笔订单数据进行深入分析并加以利用,有望能够从中获得更为丰富的价格趋势、周期波动、交易信号等规律和信息,从而挖掘出更为有效的因子,构建出具有超额收益的股票投资组合。
二、相关研究工作
三、集合竞价因子定义
如下表3所示,A股市场的竞价时段主要分为集合竞价阶段和连续竞价阶段,而集合竞价阶段又可以分为开盘集合竞价和收盘集合竞价。其中,开盘集合竞价在09:15~09:20时段内是可以撤回委托单的;而开盘集合竞价在09:20~09:25时段内和收盘集合竞价14:57~15:00时段内是不可撤回委托单的。
开盘集合竞价和收盘集合竞价作为当天股票市场的开始和结束,其中的委托、成交、撤单情况反映了当天个股的活跃度等情况,与股票市场的未来走势存在一定关联性。因此,本文基于level2数据中的逐笔订单信息,利用集合竞价期间的委托、成交、撤单数据构建出了15个集合竞价相关因子。因子定义如下表4所示。
由于上交所和深交所对集合竞价期间的level2逐笔订单数据结构差异,本文针对深证A指成分股范围内个股构建了上述15个集合竞价相关因子,并对其在2019年3月~2024年5月期间的深证A指成分股范围内选股性能进行了统计,结果如下表5所示。
在09:15~09:20时段内,成交比例因子中表现较好的是买单方向因子,其20日平滑换仓RankIC均值为-9.20%,胜率为22%;撤单比例因子中表现较好的仍为买单方向因子,其20日平滑换仓RankIC均值为-5.00%,胜率为27%。
在09:20~09:25时段内,成交比例因子中表现较好的是买卖单双向方向考虑的因子,其20日平滑换仓RankIC均值为-9.20%,胜率为28%。
在09:15~09:25时段内,成交比例因子中表现较好的是买单方向因子,其20日平滑换仓RankIC均值为-10.10%,胜率为28%。
在14:57~15:00时段内,虽然作为收盘集合竞价阶段仅有3分钟,但其中买单和卖单方向因子展现出了截然不同的选股性能。在该时段的成交比例因子中,买单方向因子RankIC均值接近于0%,胜率徘徊在50%左右,是一个几乎没有选股能力的因子。但与之相反的卖单方向因子则展现出了较为有效的选股性能,其RankIC均值为-9.60%,胜率为23%。这表明在收盘集合竞价阶段,卖单中的成交比例越大,则该股票在未来的看空可能性更大;而买单中的成交比例则与未来股价走势关系甚微。
下表6统计了集合竞价因子和前序报告《多维度解耦的94个大小单因子:海量Level 2数据因子挖掘系列(一)》中部分高相关性大小单因子之间的相关性,两类因子之间的相关系数在-13%~11%之间,相关性较低。整体而言,虽然同样作为level2逐笔订单数据构建的因子,集合竞价因子是一组相较于大小单因子高度独立的因子。
下表7统计了集合竞价因子和前序报告《订单维度解耦的22个长短单因子:海量Level 2数据因子挖掘系列(二)》中部分高相关性长短单因子之间的相关性,两类因子之间的相关系数在-30%~30%之间,相关性较低。整体而言,虽然同样作为level2逐笔订单数据构建的因子,集合竞价因子是一组相较于长短单因子较为独立的因子。
下表8统计了集合竞价因子和Barra风格因子之间的相关性,两类因子之间的相关系数在-7%~29%之间,相关性较低。其中,相关性较高的三个Barra风格因子分别为流动性因子、波动率因子、市值因子。
四、集合竞价因子选股表现
本小节从上述15个集合竞价因子中,每组均挑选出1个表现较好的因子在深证A指成分股范围内构建股票组合。结合因子的多头表现情况,这里采用因子的5日滚动均值,每20个交易日进行换仓。实证分析结果表明,集合竞价因子取得了较为出色的表现。
- 选股范围:深证A指成分股
- 股票预处理:剔除摘牌、ST/*ST、涨跌停、上市未满一年股票
- 回测区间:2019年3月~2024年5月
- 回测路径:以多路径回测均值作为统计数据
- 组合构建:采用因子值排序后的前K个股票构建Top-K组合
- 调仓策略:每20个交易日,根据t日因子值以t+1日均价买入,t+21日均价卖出
- 交易费率:双边千分之三(卖出时收取)
4.1 BuyTransaction_BuyOrder_ratio_09150920因子表现
BuyTransaction_BuyOrder_ratio_09150920因子在深证A指成分股的50档分档收益如图1所示,分档组合收益呈现出较好的单调性。以因子值对深证A指成分股进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图2和表9所示。在2019年3月~2024年5月期间,各组合相对深证A指指数分别取得了6.73%、5.91%、5.82%、5.65%、5.81%的超额年化收益率。
4.2 BuyWithdrew_BuyOrder_ratio_09150920因子表现
BuyWithdrew_BuyOrder_ratio_09150920因子在深证A指成分股的50档分档收益如图3所示,分档组合收益呈现出较好的单调性。以因子值对深证A指成分股进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图4和表10所示。在2019年3月~2024年5月期间,各组合相对深证A指指数分别取得了11.88%、10.26%、8.28%、7.41%、6.55%的超额年化收益率。
4.3 Transaction_Order_ratio_09200925因子表现
Transaction_Order_ratio_09200925因子在深证A指成分股的50档分档收益如图5所示,分档组合收益呈现出较好的单调性。以因子值对深证A指成分股进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图6和表11所示。在2019年3月~2024年5月期间,各组合相对深证A指指数分别取得了6.49%、5.94%、5.20%、4.90%、4.63%的超额年化收益率。
4.4 BuyTransaction_BuyOrder_ratio_09150925因子表现
BuyTransaction_BuyOrder_ratio_09150925因子在深证A指成分股的50档分档收益如图7所示,分档组合收益呈现出较好的单调性。以因子值对深证A指成分股进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图8和表12所示。在2019年3月~2024年5月期间,各组合相对深证A指指数分别取得了5.63%、6.07%、5.47%、5.20%、5.25%的超额年化收益率。
4.5 SellTransaction_SellOrder_ratio_14571500因子表现
SellTransaction_SellOrder_ratio_14571500因子在深证A指成分股的50档分档收益如图9所示,分档组合收益呈现出较好的单调性。以因子值对深证A指成分股进行排序,分别取Top-30、50、100、150、200个股票构建组合进行测算,结果如图10和表13所示。在2019年3月~2024年5月期间,各组合相对深证A指指数分别取得了10.90%、10.37%、9.98%、9.22%、8.62%的超额年化收益率。 五、总结与展望
如何能在股票市场的博弈中胜出?对于量化投资者来说,关键在于对数据的全面收集,并结合数学模型和算法进行深入分析,从海量数据中挖掘出隐藏的市场规律。Level 1行情数据为3秒一笔的快照(Snapshot)数据,包含了简单的开高低收交易量交易金额等常规数据,所含信息有限。而相比数据频率较低、数据丰富度有限的Level 1数据,Level 2数据中则不仅提供了更为丰富的快照(Snapshot)数据,如10档申买申卖价、10档申买申卖量、最优买卖价前50笔委托、买卖委托价位数、买卖撤单信息等,而且提供了Level 1数据中所不包含的逐笔订单(Tick)数据。
A股市场的竞价时段主要分为集合竞价阶段和连续竞价阶段,而集合竞价阶段又可以分为开盘集合竞价和收盘集合竞价。其中,开盘集合竞价在09:15~09:20时段内是可以撤回委托单的;而开盘集合竞价在09:20~09:25时段内和收盘集合竞价14:57~15:00时段内是不可撤回委托单的。
开盘集合竞价和收盘集合竞价作为当天股票市场的开始和结束,其中的委托、成交、撤单情况反映了当天个股的活跃度等情况,与股票市场的近期未来走势存在一定关联性。因此,本文基于level2数据中的逐笔订单信息,利用集合竞价期间的委托、成交、撤单数据构建出了15个集合竞价相关因子。
由于上交所和深交所对集合竞价期间的level2逐笔订单数据结构差异,本文针对深证A指成分股范围内个股构建了上述15个集合竞价相关因子,并对其在2019年3月~2024年5月期间的深证A指成分股范围内选股性能进行了统计。
在09:20~09:25时段内,成交比例因子中表现较好的是买卖单双向方向考虑的因子,其20日平滑换仓RankIC均值为-9.20%,胜率为28%。
在09:15~09:25时段内,成交比例因子中表现较好的是买单方向因子,其20日平滑换仓RankIC均值为-10.10%,胜率为28%。
在14:57~15:00时段内,虽然作为收盘集合竞价阶段仅有3分钟,但其中买单和卖单方向因子展现出了截然不同的选股性能。在该时段的成交比例因子中,买单方向因子RankIC均值接近于0%,胜率徘徊在50%左右,是一个几乎没有选股能力的因子。但与之相反的卖单方向因子则展现出了较为有效的选股性能,其RankIC均值为-9.60%,胜率为23%。这表明在收盘集合竞价阶段,卖单中的成交比例越大,则该股票在未来的看空可能性更大;而买单中的成交比例则与未来股价走势关系甚微。
展望未来,“海量Level 2数据因子挖掘”系列研究报告将继续深入Level 2数据,从海量数据中挖掘出隐藏的市场规律,构建出更多的有效因子。