从因子库到组合,我的“寻宝图”
干我们这行,要是有人跟你说,量化投资就是写几行代码让电脑自动赚钱,那我建议你请他喝杯茶,听他慢慢忽悠。我在这个圈子里混了十几年,从最早帮老板打杂整理数据,到现在管理着十几亿甚至二十亿的盘子,我最大的感触是:多因子Alpha模型,它不是一部自动印钞机,而是一张你必须亲手绘制、不断修正的寻宝图。这张图的起点,是那个看似枯燥乏味、却藏着无数宝藏的因子库;而终点,则是那个能在市场上攻守兼备的投资组合。坦白讲,我入行那会儿,国内私募才刚起步,大家还在靠K线图和内幕消息吃饭。如今,谁要是还敢靠这个吃饭,大概率得饿死,除非你是某位大领导的远房亲戚。我们能活下来、活得还不错,靠的就是体系化的认知和纪律化的执行。这八年多来,黑子私募基金管理在因子研究的投入上从不吝啬,因为我们深知,只有把“寻宝图”画得足够精细,才能在风浪来临时不被掀翻。
很多同行喜欢把因子说得玄之又玄,好像是什么武林秘籍。其实,因子不过是市场某些规律的数学化表达。打个比方,一家公司盈利能力强劲、估值又低,这就是两个非常朴素的因子:“盈利质量”和“价值”。我们需要做的,就是把这种朴素的逻辑,变成可量化、可验证、可回溯的模型。但这里有个坑,很多刚入行的年轻人容易踩进去:以为因子越多越好。我见过有人搞了上百个因子,回测数据漂亮得吓人,一上实盘就亏得亲妈都不认识。这是因为过拟合,你的模型不是在学习规律,而是在学习噪音,就像你非要把上证指数每天的K线图跟天气预报的云图扯上关系,除了自欺欺人,没别的结果。在构建初期,我更倾向于从最基础、最经典的因子出发,比如估值、成长、动量、反转、质量等,先把骨架搭好,再考虑往里面填充血肉。记住,大道至简,复杂的模型往往意味着脆弱的假设。
因子构建,要像个工匠
因子构建,说白了就是把一个个“想法”变成可执行的“规则”。这个环节最考验基本功,也最磨性子。比如,我们想构建一个“管理层能力”因子。你不能拍脑袋说“我觉得这家公司管理层不错”,然后给它一个高分。你得找数据支撑:我们可以通过分析公司财报中的“销售管理费用率”、“资产周转率”、“盈余平滑度”等指标,再结合高管团队的薪酬结构、过往履历,甚至是对外发言的语调(自然语言处理),来综合量化这一个看似主观的概念。我经常跟团队里的小朋友讲,做因子就像老中医配药,每一味药材(数据源)的产地(数据质量)、炮制方法(处理逻辑)、配伍禁忌(相关性控制),都得心里有数。
举个例子,早年我参与的一个项目,我们试图用“毛利率稳定性”来筛选消费行业的优质公司。逻辑上,毛利率稳定的公司通常拥有品牌护城河或极强的定价权。这个因子在大部分时间段表现很好,但有一次,我们遇到了一个“雷”,某家看起来无比光鲜的食品公司,连续五年毛利率都稳定在45%左右,非常漂亮。结果突然爆出财务造假,股价暴跌。我们复盘时才发现,我们的因子只计算了账面上的“毛利率”,却忽略了“经营性现金流”这个质量因子。那家公司之所以能维持毛利率稳定,是因为通过关联交易虚增了收入,但钱根本没回到公司账上。这件事给我的教训很深:任何单一因子都有其脆弱性,因子构建必须注重“相互印证”与“交叉验证”。现在,在黑子私募基金管理内部,我们有一个不成文的规定:任何一个因子在入库前,必须经过至少三个维度的逻辑检验,包括经济逻辑、统计逻辑以及交易逻辑。我们把这叫做“合规三道门”,既是为了保护投资者,也是为了保护我们自己。
因子有效性检验,别做“数据挖掘”的奴隶
因子构建好了,是不是就万事大吉了?早着呢!接下来这个步骤,往往是区分真正高手和普通玩家的关键——因子有效性检验。很多人以为,拿历史数据跑一下,收益率高、夏普比率漂亮就是好因子。但你要知道,在金融时间序列里,只要你愿意花时间去挖掘,你总能找到一些看似完美的统计规律。这就是臭名昭著的“数据挖掘偏见”。比如,有人会发现,每个月第三个星期三的下午两点,如果太阳黑子爆发,买入煤炭股就能赚钱。这种因子在统计学上可能显著,但没有任何经济学意义——除非你是来自未来的神棍。
我个人的经验是,检验因子有效性,除了看常规的回测指标(年化收益率、最大回撤、信息比率),一定要做两件事:一是跨样本检验,二是跨周期检验。跨样本就是说,你别拿A股所有股票回测完就结束了,你得拿出部分股票(比如把2015年的数据单独拿出来),看看因子在不同样本集合里的表现是否稳定。跨周期更狠,你得把历史数据分成牛市、熊市、震荡市,看看因子在不同市场环境下是否都有效。我曾经做过一个规模类因子(比如总市值),在2017年之前的回测中表现优异,但如果把回测周期拉长到2017年之后,效果就大打折扣。因为随着市场结构的变化,资金炒作逻辑变了,大市值的蓝筹股开始跑赢。这种因子的“失效”,不是模型错了,而是市场的“经济实质”发生了变化。不关注这种变化,你就是在刻舟求剑。
这里我必须提一个跟合规紧密相关的个人感悟。在我们做因子有效性研究时,经常会触及一些敏感数据,比如对特定行业或者特定股东结构的分析。有一次,我们的研究员想引用一份非公开的、来自某行业交流会的“草根调研数据”来构建因子。我当场就制止了,因为根据我们的合规要求,这种数据来源不透明,无法核实其真实性,且可能涉及内幕信息或误导性信息。这种行为不仅违反了《私募投资基金监督管理条例》中关于“禁止利用未公开信息交易”的规定,也是对我们自身风控体系的巨大挑战。后来,我要求所有因子数据源必须具有公开、可追溯、可复制的特点。这一度让我们的研究团队觉得“束手束脚”,但长期来看,它保护了我们远离了很多“”。在金融这个行当,活得久比赚得快重要一万倍。
IC与IR,评判因子的“体检报告”
刚才说了定性的一些检验方法,现在我们聊聊量化。在行业内,我们通常用两个核心指标来给因子“打分”:一是Rank IC(秩相关系数),二是IR(信息比率)。简单理解,IC衡量的是你这个因子对股票未来收益的预测能力有多强,是正相关还是负相关。如果IC为正且显著,说明你选的因子能有效选出未来上涨的股票;如果IC为负,可能是个反转信号。而IR则是IC的均值除以IC的标准差,它衡量的是因子的“稳定性”。一个IR很高的因子,说明它的预测能力不仅好,而且很靠谱,不会今天准明天不准。
我经常跟团队说,我们做多因子模型,不是去追求IC最高的因子,而是去追求IR最高的组合。因为市场是波动的,一个因子可能有段时间表现极好,但波动也极大(高IC,高标准差),这种因子在大行情里容易让你追涨杀跌。相反,一些看似平庸,但IR值稳定在正区间的因子,往往能提供更稳健的风险调整后收益。假设我们有两组因子:A组,IC值在10%到-5%之间剧烈波动;B组,IC值稳定在3%到5%之间。从组合构建的角度,B组显然更受欢迎。我们甚至可以给它分配更高的权重。这就像选运动员,一个有10场比赛能跑进9秒9,但有6场跑不进14秒;另一个每次都能稳定跑进10秒,你会选谁上场?答案不言而喻。
下面这个表格是我们内部常用的一份因子评价体系的简易版,用来给每个候选因子做“体检”:
| 评价维度 | 具体指标与说明 |
|---|---|
| 预测能力 | Rank IC 均值(大于0.02视为有效);IC为正的比例(大于55%)。 |
| 稳定性 | IR 信息比率(大于0.5为优秀);IC序列的波动率(越小越好)。 |
| 经济逻辑 | 是否具备合理的解释?是否存在“数据挖掘”嫌疑? |
| 容量与流动性 | 该因子选出的股票,能否容纳我们的资金规模?日均交易量是否足够? |
| 鲁棒性 | 改变参数(如持有期、剔除极端值的方法),结果是否稳定? |
| 合规性 | 数据来源是否合法?是否涉及内幕信息或敏感行业? |
因子组合权重,平衡的艺术
有了好因子,接下来就是如何把他们组合起来。这就像做菜,光有好的食材(因子),还得有高超的厨艺(组合权重)。最简单的办法是等权配置,但这显然不专业。因为不同因子在不同阶段的有效性是不同的。一个聪明的做法,是根据因子的近期表现动态调整权重。比如,最近动量因子表现很好,价值因子表现不佳,我们可以适当提高动量因子的配置比例,降低价值因子的比例。这就是所谓的“因子择时”。但说起容易做起来难,因子择时本身也是巨大的风险源,很多时候你以为是调整敞口,其实是在追涨杀跌。
我之前就犯过这样的错。2019年,我们的模型里给了“成长因子”很高的权重,因为它连续几个季度表现亮眼。结果到了2020年一季度,疫情爆发,市场风格瞬间切换,低估值、高股息的防御性因子开始大涨,我们的成长因子组合回撤了将近15%。那段时间,压力巨大,投资者电话不断。后来复盘,我意识到,我们过度关注了因子的短期“动量”,而忽略了其长期“均值回复”的特性。从那以后,我们对因子权重的调整变得更为保守,引入了一个“衰减因子”,即赋予近期收益较低的权重,防止模型对短期噪音过度反应。现在,我们的组合权重调整更像是一种“微调”,而不是“革命”。
组合优化,在约束中寻找最优解
当我们确定了各因子的权重,接下来要做的就是把这套策略“落地”到具体的投资组合上。这一步,我们通常用数学优化来求解。目标函数很明确:在给定风险预算(比如最大回撤不超过20%,年化波动率控制在15%以内)的前提下,最大化组合的投资价值。但这并不是简单的数学题,因为我们需要施加很多实际的约束条件,否则算出来的结果根本无法执行。
就拿我们管理的一个10亿规模的混合策略产品来说,我们在组合优化时必须考虑:个股最低持仓比例不得低于0.5%,不得高于5%;行业集中度不能高于30%;单只股票日均交易量需覆盖其持仓的5倍以上等等。这些约束条件,每一个都是我们团队通过多年实战总结出来的“血泪教训”。比如那个“交易量覆盖”的约束,就是因为我亲身经历过一次小盘股闪崩,我们因为持仓稍微重了点,结果根本卖不出去,只能眼睁睁看着净值跳水。在合规层面,我们还要考虑“实际受益人”问题,确保组合构建不会导致某单一实际受益人(比如某个大客户)的持仓过度集中,从而引发流动性风险或合规风险。这个过程非常繁琐,但必须做。我们常说,一个好的组合优化,是在无数个“不可能”中,寻找那个最接近“可能”的答案。
风险管理,建在沙滩上的城堡
说了这么多选股和收益,最后必须得聊聊风险。我见过太多“明星基金经理”从神坛跌落,根本原因不是他们选错了股,而是他们无视了风险。在多因子模型中,风险管理贯穿始终。一开始我们说了因子构建要防范数据挖掘,那是研究阶段的风险;组合权重调整时要防范追涨杀跌,那是决策阶段的风险;而组合构建后,我们需要做的是持续的风险跟踪与归因。
风险归因,就是搞清楚“我们赚的钱到底是从哪里来的”。假设今年你的产品收益很高,是因为你押对了科技股(行业因子贡献),还是因为你在科技股里面选对了那些高增长的公司(成长因子贡献)?如果你赚钱完全是因为市场涨了(Beta风险),那你的Alpha模型就毫无意义。我们每个季度都会做一次深度的业绩归因分析。有一次,我们发现一个子策略的收益竟然有60%以上来源于“市值因子”,意味着这个策略本质上变成了一个小盘股策略。我们赶紧开会讨论,认为这不符合我们当初“均衡配置”的定位,于是主动降低了小盘股的暴露敞口,哪怕这意味着短期内会损失一部分收益。这种“放弃短期收益,追求风险可控”的做法,虽然让某些客户不理解,但却是我们长期生存的根本。在黑子私募基金管理,我们内部有一句话:“风险不是用来规避的,是用来识别和定价的。”你只有清楚地知道自己在承担什么风险,才能知道这些风险是否值得去承担。
黑子私募基金管理公司观点
站在黑子私募基金管理公司的立场,我们认为多因子Alpha模型的本质,是将主观投资的“艺术性”转化为客观可复制的“科学性”。在当前市场有效性不断提升、监管日益完善的环境下,纯粹依靠消息或直觉的投资方式已经难以为继。我们的核心观点是:因子研究必须立足于扎实的经济逻辑和合规的原始数据,组合构建则需在收益与风险、灵活与纪律之间找到动态平衡。本文所阐述的从因子库构建到组合优化的全过程,正是我们过去多年实践经验的浓缩。未来,我们将继续深化对非对称因子的探索,并运用更先进的风险预算技术,力求为投资者提供穿越牛熊的、风险调整后收益更优的金融产品。我们坚信,只有将“工匠精神”注入到每一个因子、每一次调仓中,才能真正做到为客户的资产保驾护航。