第七届“泰迪杯”数据挖掘挑战赛——
A
题:通过机器学习优化股票多因子模型
Fama
通过分析美国市场几十年的数据发现,美国股市绝大部分可以被市值、估值以及
市场收益
3
个因子解释,
并因此获得了
年诺贝尔经济学奖。
Fama
的工作开启了通过因
子化分析股市获取超额收益的先河,
此后学术界及业界不断地寻找其他能获取超额收益的因
子及其组合和风险控制的方式。
在我国,基于财务因子(比如市盈率、市值等)及长周期的量价因子(比如月度反转、
月度成交量等)
为主要因子的传统多因子模型在
A
股市场曾经获得过较为稳健的超额收益,
但是由于
A
股市场存在明显的风格切换
(比如
年下半年从传统的小市值风格切换到只
有极少数大市值股票上涨,而绝大部分股票下跌的风格)
,传统多因子模型的稳定性及有效
性受到了较大的考验。
相比传统的线性多因子模型,
机器学习算法能够通过对因子的非线性表达,
捕捉到更加
精细的市场信号,获取较为稳健的超额收益。
根据
年
1
月
1
日至
年
9
月
30
日我国
A
股市场的数据
(数据提取方式见附录
2
)
,
筛选出各大类股票因子中较优的子因子。
在此基础上,
分析不同的机器学习算法对提升
这些因子的等权重线性模型表现的优劣,
并使用
“
Auto-Trader
策略研究回测引擎”
进行策略
回测(初始资金为
1000
万元整,手续费为双边千分之
3
,每月月初调仓)
。
可以从以下角度入手进行分析:
(1)
利用
Auto-Trader
中各大类因子
(见附录
3
)
的日频数据
(数据提取方式见附录
4
)
,
分别做单因子策略研究和绩效分析,挑选出使得年化夏普比率(
Sharperatio
)最优的各个大
类的因子。
(2)
基于机器学习算法对
(1)
中挑选的因子,进行增强,利用
年
1
月
1
日至
年
9
月
30
日的数据进行选股和回测,比较不同机器学习算法选股策略与等权重线性模型选
股策略之间年化夏普比率的优劣。
(3)
对选股策略进行风险控制,要求将最大回撤控制在
10%
以内,重新完成
(2)
。
注:
除提交论文外,参赛队还须提交策略的回测报告,提交方式详见附录
7
。
参考文献
[1]AurélienGéron
,
机器学习实战:
基于
Scikit-Learn
和
TensorFlow
,
机械工业出版社,
.9.