多维度解耦的94个大小单因子:海量Level-2数据因子挖掘系列(一)

July 15. 2024
【重要提示】本网站所有内容仅用作记录个人研究,不构成对任何人或机构的投资建议或意见。据此操作者,后果完全由其自己承担。
才疏学浅,欢迎指正!


【摘要】

在每个交易日中,股票的交易订单大小不一,而其中的大订单常常被认为是信息优势者发出的主力订单,对股票价格的未来走势具有揭示作用。本文从level-2逐笔订单数据出发,结合时间维度、订单维度的多维度解耦分析方法,构建出了94个有效的大小单因子。

一、Level-1与Level-2数据

如何能在股票市场的博弈中胜出?关键在于对市场信息的掌握和对市场规律的理解。对于量化投资者来说,更在于对数据的全面收集和深度分析,并结合数学模型和算法,从海量数据中挖掘出隐藏的市场规律。这些规律可能是某些股票价格的趋势,市场的周期性波动,抑或是短期的交易信号。一旦这些规律被发现并加以利用,量化投资者便能在股票市场的博弈中获得优势。

股票行情数据源于上交所和深交所,根据数据的频率和丰富度通常分为Level 1数据和Level 2数据。如下图所示,Level 1数据为3秒一笔的快照(Snapshot)数据,包含了常用行情软件上可以看到的最高价、最低价、开盘价、收盘价、成交量、成交额、成交笔数、委买委卖量、5档申买申卖价、5档申买申卖量等数据。

而相比数据频率较低、数据丰富度有限的Level 1数据,Level 2数据中则不仅提供了更为丰富的快照(Snapshot)数据,如10档申买申卖价、10档申买申卖量、最优买卖价前50笔委托、买卖委托价位数、买卖撤单信息等,而且提供了Level 1数据中所不包含的逐笔订单(Tick)数据。

逐笔订单数据包含了当日交易时段中集合竞价和连续竞价的每一笔订单数据,其中的关键信息包括精确到毫秒的订单时间、逐笔序号、频道代码、价格、数量、金额、买入卖出订单号和订单类别等详细数据。Level 2数据中的逐笔订单数据是一切行情数据的根源,不同频率的快照数据均由逐笔订单数据聚合而成。

在“海量Level 2数据因子挖掘”系列研究报告中,将尝试对Level 2数据中详细的快照数据和逐笔订单数据进行深入分析并加以利用,有望能够从中获得更为丰富的价格趋势、周期波动、交易信号等规律和信息,从而挖掘出更为有效的因子,构建出具有超额收益的股票投资组合。

Blog Image

二、数据聚合

Level 2逐笔订单信息中的关键数据样例如下表所示,订单类别通常以“T”代表成交(Transaction)订单。对于每一笔成交而言,逐笔序号是唯一的,而买入订单号和卖出订单号并不是唯一的,这是因为同一笔委托可能会由于对手下单数量而被拆解为多个订单成交。

比如表中买入订单号为1的委买单被在实际交易中被撮合到与卖出订单号为10、11、12的委卖单进行成交,即该订单实际的买入数量和买入金额为500 + 800 + 200 = 1500股以及3000 + 4800 + 1200 = 9000元。由此可见,逐笔订单中的成交量信息并不能直接反应原始委托订单的大小。

为了能够真实反映原始委托订单的大小,在本文研究中,首先分别把归属相同买入订单号和卖出订单号的逐笔成交订单进行聚合,得到原始委买订单和委卖订单中的信息。聚合后的原始委买订单共包含订单号为1和2的两条数据,而聚合后的原始委卖订单则共包含订单号为10、11、12的三条数据。

Blog Image
三、大小单因子构建

在Wind等常用行情软件的大小单界定规则中,通常将挂单金额小于4万元的归类为小单、挂单金额大于4万元但小于20万元的归类为中单、挂单金额大于20万元但小于100万元的归类为大单、挂单金额大于100万元的归类为超大单。但这样基于绝对金额阈值筛选的订单通常与股票市值和股价有明显的关联,同样的挂单金额在大市值的股票中可能实际上只是一个小单,但在小市值的股票中却是一个超大单。

基于以上观察,本研究在对大小单进行界定时并未使用绝对的金额阈值,而是分别对买卖订单中成交量大于均值+N倍标准差的订单界定为大单,剩余的则相应地界定为小单。本研究分别采用3个不同的标准差阈值来对大小单进行界定,假设买卖订单中的成交量服从如下图所示的高斯分布,则买卖订单中大于均值+1.0倍标准差的大单约占15.8%,大于均值+1.5倍标准差的大单约占6.7%,大于均值+2.0倍标准差的大单约占2.3%,以此构建出了大买单占比因子BigBuy_1p0、BigBuy_1p5、BigBuy_2p0,以及大卖单占比因子BigSell_1p0、BigSell_1p5、BigSell_2p0。

此外,还可以将大买单占比因子和大卖单占比因子相加得到大买大卖单占比因子BigBuySell_1p0、BigBuySell_1p5、BigBuySell_2p0。而小单占比因子实际上等于1-大单占比因子,它们之间呈现出同向的线性关系,因此无需额外构建小单占比因子。

Blog Image

大小单因子在2021年1月至2024年5月期间的A股全市场RankIC均值和胜率如下表所示:

Blog Image

四、从时间维度解耦大小单因子

由于聚合后的原始买卖委托订单,可能会出横跨多个时间段(前2笔成交时间在开盘后半小时即09:30-10:00之间,而第3笔成交在开盘后的第二个半小时即10:00-10:30之间)的成交情况,因此无法直接对聚合后的原始买卖委托订单进行时间划分。为了对大小单因子进行正确的划分,本研究采用聚合后的原始委托大小单界定,来对原始的逐笔订单进行大小单划分。

在均值+1.0倍标准差作为大单划分阈值的情况下,买入订单号为1的前三笔逐笔订单为买入大单,而买入订单号为2的后两笔逐笔订单为买入小单;同样的,卖出订单号为10、11的前两笔逐笔订单为卖出大单,而卖出订单号为12的后三笔订单为卖出小单。由此精确赋予了逐笔订单的买入和卖出双向大小单属性。

Blog Image

从时间维度解耦的大小单因子在2021年1月至2024年5月期间的A股全市场RankIC均值和胜率如下表所示:

Blog Image

Blog Image

五、从订单维度解耦大小单因子

同一笔成交订单同时存在着买入和卖出两个方向上的大小单属性。因此,大小单因子可以拆解为大买单大卖单、大买单小卖单、小买单大卖单、小买单小卖单四种订单属性不同的因子。本研究基于三种不同的大小单划分阈值构建出了12个从订单维度解耦的大小单占比因子。

从订单维度解耦的大小单因子在2021年1月至2024年5月期间的A股全市场RankIC均值和胜率如下表所示:

Blog Image

六、从多维度解耦大小单因子

本研究进一步尝试同时结合时间维度和订单维度来解耦大小单因子,并基于三种不同的大小单划分阈值构建出了48个多维度解耦的大小单占比因子。

从多维度解耦的大小单因子在2021年1月至2024年5月期间的A股全市场RankIC均值和胜率如下表所示:

Blog Image

Blog Image

Blog Image

七、精选大小单因子组合

隔夜知情交易者通常会在第二天开盘后迅速根据已掌握的信息进行买入或卖出,以谋求更大的收益或减少踩踏。因此,开盘后15分钟或30分钟内的大小订单信息尤其值得关注,类似的现象有时也会出现在收盘前15分钟或30分钟内,这也正是从多维度解耦大小单因子的逻辑所在。

基于以上观察,结合多维度解耦大小单因子的实际表现,本研究采用XXX等因子,以XXX等方式构建出精选大小单因子组合。本研究对精选大小单因子组合在全市场及各大板块上进行了回测,实证结果表明精选大小单因子组合均取得了较为出色的表现。

  • 选股范围:全市场,创业板,沪深300,中证500,中证800,中证1000
  • 股票预处理:剔除摘牌、ST/*ST、涨跌停、上市未满一年股票
  • 回测区间:2021年1月~2024年5月
  • 回测路径:以多路径回测均值作为统计数据
  • 组合构建:采用因子值排序后的前K个股票构建Top-K组合
  • 调仓策略:每20个交易日,根据t日因子值以t+1日均价买入,t+21日均价卖出
  • 交易费率:双边千分之三(卖出时收取)

八、精选大小单因子组合回测表现(2021.01~2024.05)
在全市场范围内:精选大小单因子组合RankIC均值为9.2%、胜率为76%。
Blog Image

在创业板板块内:精选大小单因子组合RankIC均值为8.6%、胜率为76.6%。
Blog Image

在沪深300板块内:精选大小单因子组合RankIC均值为7.8%、胜率为62.9%。
Blog Image

在中证500板块内:精选大小单因子组合RankIC均值为7.9%、胜率为64.2%。
Blog Image

在中证800板块内:精选大小单因子组合RankIC均值为8.0%、胜率为65.2%。
Blog Image

在中证1000板块内:精选大小单因子组合RankIC均值为7.2%、胜率为70.5%。
Blog Image

九、总结与展望

本文是“海量Level 2数据因子挖掘”系列研究报告的第一篇,从所有行情数据的根源——Level 2逐笔订单数据出发,从订单的大小角度进行窥探,并结合多维度解耦的分析方法构建出有效的大小单因子。

隔夜知情交易者通常会在第二天开盘后迅速根据已掌握的信息进行买入或卖出,以谋求更大的收益或减少踩踏。因此,开盘后15分钟或30分钟内的大小订单信息尤其值得关注。基于此观察,本文构建了24个从时间维度进行解耦的大单占比因子。

与此同时,同一笔成交订单同时存在着买入和卖出两个方向上的大小单属性。据此,本文构建出了12个从订单维度解耦的大小单占比因子。进一步的,本文尝试同时从时间维度和订单维度来对大小单因子进行解耦,构建出了48个多维度解耦的大小单占比因子。

最后,本文从上述93个大小单因子中挑选出表现优异者,并构建出了精选大小单因子组合。在2020~2023年期间的20日换仓下,实证结果表明精选大小单因子组合在全市场及各大板块上均取得了较为出色的表现。

在200档分档组合构建下,大小单因子组合在全市场板块的多头较为显著,取得了36.61%的多头年化收益率,最大回撤率为17.52%,夏普比率为2.03,相对同期的中证全指取得了33.07%的超额年化收益率。

在50档分档组合构建下,大小单因子组合在沪深300、中证500、中证800、中证1000和创业板板块的多头较为显著,分别取得了12.24%、22.55%、18.54%、24.61%、36.20%的多头年化收益率,夏普比率分别为0.75、1.12、1.14、1.36、1.59,相比同期的板块指数分别取得了13.40%、18.67%、18.95%、17.39%、25.07%的超额年化收益率。

展望未来,“海量Level 2数据因子挖掘”系列研究报告将继续深入Level 2数据,从海量数据中挖掘出隐藏的市场规律,构建出更多的有效因子。