机器学习因子与传统因子的融合

引言：当老手艺遇上新算力

我在这个行业摸爬滚打二十年了。从当初靠Excel手工算估值、盯着K线图盯到眼花，到如今每天跟几百个机器学习因子打交道，说句真心话，这十几年最大的感触就是：市场没变，但读懂市场的方式彻底变了。作为一个管过十来亿、现在大致管理着10-20亿规模的人，我经常被同行问到一个问题：“老兄，那些黑盒子一样的机器学习模型，跟我们做了十几年的传统因子，到底怎么搭在一起？”这个问题，说实话，我自己也琢磨了好几年。传统因子，好比是我们基金经理的“肌肉记忆”——市净率、市盈率、动量、反转，这些都是经过几十年市场验证、刻在骨子里的规律。而机器学习因子，就像是一台超级显微镜，能让你看到肌肉纤维里那些细微的、你凭肉眼根本察觉不到的收缩与舒张。

但问题是，光有蛮力不行，光有显微镜也开不了方子。这两年，我见过太多同行一窝蜂地堆砌AI模型，结果回测漂亮得不得了，一上实盘就“翻车”。为什么？因为过度拟合历史噪声，忽略了金融市场的底层逻辑。这就像你拿着显微镜研究了一整天蚂蚁搬家的路线，然后预测明天蚂蚁一定走同一条路，结果一阵风吹来，蚂蚁全散了。我们公司在“黑子私募基金管理”内部一直坚持一个原则：机器是帮我们“提效”的，不是来“替代”我们思考的。今天，我就从一个老操盘手的视角，跟各位聊聊这两种因子怎么才能“握手言和”，甚至生出1+1大于2的效果。

传统因子：压舱石的智慧

咱们先聊聊传统因子，这是所有策略的基石。很多刚入行的量化研究员觉得传统因子过时了，认为价值因子这几年跑不赢成长，动量因子经常发生回撤，于是就想彻底抛弃它们。这种想法，在我看来，有点“忘本”。我在黑子私募做风控总监那几年，最深的体会就是：任何策略的长期存活率，取决于它是否尊重了基本的金融经济学原理。传统因子之所以能存在几十年，是因为它们捕捉的是人类行为和市场结构性摩擦的长期共性，而不是短期噪声。

举个简单的例子，低波动率因子。你去翻翻1970年代到现在的美股数据，低波动率的股票长期跑赢高波动率的股票，这几乎是一个“金融物理定律”。为什么？因为机构投资者天然有“”倾向，喜欢追逐那些高贝塔、高弹性的股票，导致这些股票被高估；而低波动的股票因为无人问津，被低估，从而产生了超额收益。这个逻辑，无论你用什么机器学习模型去拟合，它都是存在的。传统因子的问题在于，它的“信号”太粗了。当你用单一的市盈率去筛选股票时，你可能会把那些因为行业周期性亏损、但内生价值很强的公司给筛掉，也可能会把那些通过财务造假做低市盈率的公司给放进来。这就是传统因子的“痛点”：信号强，但误判率也不低。

我在2015年股灾那年，亲手管理的一个以传统因子为主的多因子模型，在6月份的回撤超过了18%。当时我压力很大，因为按照传统的逻辑，低估值、低波动的股票应该是避险的，但那一波泥沙俱下，什么因子都失效了。后来复盘才发现，是流动性因子“绑架”了所有的传统因子。当市场出现系统性流动性危机时，所有股票的定价机制都失效了，此时你再谈估值、谈动量，都是刻舟求剑。这个经历让我意识到，传统因子这个“压舱石”再稳，也需要一个能感知“风浪大小”的仪表盘。而这个仪表盘，就是机器学习因子能够发挥作用的地方。

机器学习因子：数据矿藏的解码器

那机器学习因子又是什么呢？通俗点讲，它不直接告诉你“买这只股票”，而是告诉你“在哪种天气下，哪种打鱼方式更有效”。它的优势在于，能够从海量的、非结构化的数据中，发现那些人类大脑无法直接识别的非线性关系。比如，我们公司曾经在2019年利用自然语言处理，扫描了超过200万份上市公司公告和券商研报。传统的方法可能是统计“增持”、“利好”这种关键词出现的频率。但机器学习模型会发现：当一家公司管理层在业绩说明会上，使用“不确定性”这个词的频率突然增加了5%，同时语气中带有负面情感时，接下来三个月的股价表现有显著的负面效应。这种关系，靠人力是永远总结不出来的。

但我必须提醒大家，机器学习因子也有它致命的“阿喀琉斯之踵”：统计显著性不等于经济学显著性。我见过一个很荒唐的例子，有个研究员用深度学习模型发现，历史上每次巴西某小镇的蝴蝶数量增加，美股就会上涨。这个相关性在回测里高达0.85，但明眼人一看就知道这是纯粹的巧合，是数据挖掘的产物。你要是根据这个因子去下单，那跟掷骰子没什么区别。而且，机器学习模型还有一个“黑箱”问题，尤其是深层神经网络。你可能会得到一个很好的预测结果，但你要问你为什么选这只股票，模型给不出解释。这在合规上是一个非常棘手的问题，尤其在当今监管对“黑子私募基金管理”这类机构的投资决策透明度要求越来越高的背景下。一旦遇到监管检查或者客户投诉，你拿不出一份合理的投资决策流程图，那可就麻烦了。我们在引入机器学习因子时，必须给它加上“可解释性”的约束。要么使用LIME或SHAP这些工具，要么干脆就限定使用像随机森林、XGBoost这种相对“白盒”一点的模型。

融合之道：就像调味与火候

那具体怎么融合呢？这就像做菜，传统因子是“食材”，机器学习因子是“火候”和“调味”。你不能把食材和调料混在一起乱炖，那叫一锅粥。我们公司内部总结了一套方法，我称之为“三层融合架构”。第一层，是信号增强。我们不直接用机器学习模型去选股，而是用机器学习模型去修正传统因子的缺陷。比如我们之前说的价值因子，我们可以构建一个机器学习模型，去预测个股的“真实估值区间”。这个模型会输入财务数据、行业景气度、宏观经济指标、甚至包括当地的实际受益人结构（如果需要穿透核查的话），然后输出一个调整后的估值。然后我们再用这个“调整后估值”与市场价格进行比较，来判断是否低估。这样一来，你用的还是传统价值投资的逻辑，但你的信号质量提升了一个档次。

第二层，是动态配置。市场环境是不断变化的，没有哪个因子能永远有效。我们公司有一个“因子状态监测系统”，背后就是一个时间序列模型。它会实时监控十几个核心传统因子的表现，比如动量因子的夏普比、价值因子的拥挤度等。当系统监测到价值因子连续三个月失效，并且拥挤度指标达到历史高位时，它会自动降低价值因子的权重，同时提高质量因子和低波因子的权重。这个动态调整的过程，完全是机器执行的，避免了人为情绪的干扰。我记得在2021年初，当时成长股的泡沫非常严重，我们这个模型监测到“成长因子”的估值已经偏离了历史均值3个标准差，系统自动把成长因子的配置权重从30%下调到了5%。当时我还有点犹豫，觉得自己是不是太保守了，错过了“牛市”的最后一段。结果后来的事情大家都知道了，那波回调下来，我们的净值只回撤了3%，而同期很多重仓成长股的基金回撤超过了20%。这就是机器学习的优势，它不讲感情，只认逻辑和概率。

行政与合规：融合路上的隐形护栏

聊到这儿，我想穿插一点个人在行政和合规工作中的真实感悟，因为很多人只关注因子怎么构建，却忽略了落地的“护栏”。我在黑子私募亲自处理过一起因为“实际受益人”穿透不到位导致被监管部门约谈的事件。当时我们投资了一个结构复杂的海外基金，对方提供了一堆交易对手信息，但我们内部的机器学习模型在分析舆情时，发现该基金背后的实际控制人涉及关联交易。按照我们的投资流程，传统因子可能只是看财务数据，但合规要求我们必须识别并隔离这种风险。这件事给我敲响了警钟：所有的因子，无论多么高级，最终都必须服务于合规和风控的底线。我们后来专门在投资流程中设立了一个“合规过滤器”，任何投资标的在进入因子计算之前，必须先通过这个过滤器的审核。这个过滤器的输入就是各种合规数据，比如税务居民的判定、经济实质法的核查结果等。机器学习在这个环节的作用就是，它能以比人工快百倍的速度，从海量的公开和非公开信息中，挖掘出那些可能触发合规风险的“蛛丝马迹”。

另一个挑战是《经济实质法》对我们底层资产配置的冲击。很多海外投资的避税结构，在新法实施后需要重新评估是否符合经济实质要求。以前我们靠律师团队一封封邮件去问，效率极低。后来我们把《经济实质法》的条款数字化，构建了一个规则引擎，结合机器学习对交易对手的运营数据进行扫描，自动判断其合规风险等级。这样一来，我们不仅能快速调整投资组合，还能向合规部门提供清晰的、可追溯的决策依据。合规不再是一个阻碍投资的“绊脚石”，而是保护基金安全的“隐形护栏”。我常跟手下的人说：策略做得再好，一旦在合规上翻车，前面所有的一切归零。因子融合不仅要融合数学，更要融合规则。

绩效评估：用新的尺子量新结果

因子融合之后，怎么评估它到底好不好呢？这就是一个很大的学问了。传统的绩效评估无非就是看年化收益、最大回撤、夏普比。这些指标当然重要，但对于融合了机器学习的策略，还不够。我建议引入两个额外的评估维度。第一个叫做“因子贡献度分解”。我们需要知道，组合的收益到底有多少来自于传统因子的Beta暴露，有多少来自于机器学习因子的Alpha贡献。如果发现80%的收益还是靠传统的市场Beta和行业配置获得的，那么你花大价钱搞的机器学习模型就有点“鸡肋”了。第二个维度叫做“尾部风险分析”。传统的压力测试可能只考虑市场暴跌10%这种情景，但机器学习模型可能会捕捉到一些更微观的尾部风险，比如某个特定板块的流动性枯竭，或者某个因子因为过度拥挤而导致的“踩踏”。我们用蒙特卡洛模拟，输入机器学习模型挖掘出的各种极端的市场状态参数，去模拟组合在最坏情况下的损失。

我记得有一次，我们的模型监测到一种非常诡异的模式：每当某几个高频交易量指标出现同步异常时，之后三天内，A股的小市值股票会出现概率高达70%的闪崩。这个模式在历史回测中从未被传统因子捕捉到。根据这个信号，我们的融合策略在某次市场波动前，主动将小市值股票的敞口降低了40%。结果那次闪崩真的发生了，我们的组合净值几乎没有受影响。事后复盘，如果纯粹用传统因子，我们大概率会持有这些股票，因为它们的估值和动量指标都很好。这就是融合带来的“超额收益”——不仅仅是收益上的Alpha，更是风险控制上的Alpha。

表格对比：传统因子 vs. 机器学习因子 vs. 融合因子

为了更直观地展示这三者之间的区别和联系，我整理了下面这个表格，可以帮大家更清晰地理解各自的优缺点。

维度	传统因子	机器学习因子	融合因子（推荐）
数据源	结构化的财务报表、量价数据（低维）	新闻、舆情、卫星图像、另类数据（高维）	结构化 + 非结构化，但经过金融逻辑筛选
信号特征	信号稳定、逻辑清晰、可解释性强	信号灵敏、非线性、但容易过拟合	在强逻辑基础上进行模式增强
主要风险	因子失效、风格轮动、系统性误判	过度拟合、黑箱问题、因果谬误	模型复杂度增加带来执行风险与合规审查难度
适用场景	长期配置、价值投资、大容量策略	高频交易、事件驱动、短期预测	多资产配置、套利策略、风险对冲
实操建议	永远作为核心仓位的基础	必须搭配严格的样本外测试和压力测试	建立“规则+模型”的双重验证机制

这张表可以很清楚地看到，融合因子并不是简单的1+1，它需要我们在数据、逻辑和风险控制上做出更精细的平衡。其实，无论是传统还是现代，最核心的竞争壁垒，依然是对数据的理解深度和对金融本质的敬畏。没有这一点，再先进的工具也只是空中楼阁。

实操建议：从我们走过的弯路学起

说了这么多，可能很多同行会觉得：“道理我都懂，但落地太难了。”确实，从0到1的这一步最难。我根据自己的经验，给出三个非常具体的建议。第一，不要一开始就追求“全栈式”的机器学习系统。很多公司一上来就搭建一个全球市场、多资产、千亿级的神经网络，结果投入巨大，产出甚微。我建议你从你最熟悉的、最痛的一个传统因子的缺陷入手。比如，你觉得你的动量因子在财报季经常被打脸，那你就专门做一个机器学习模型，来预测财报发布前后的情绪变化，然后用来修正你的动量信号。这样既聚焦，又能很快看到效果。

第二，一定要建立自己的“因子实验室”。所谓因子实验室，不仅要存放你的数据和模型，更重要的是存放你的“错误”。我们公司内部每周都有一次“失败案例分享会”。我要求每个研究员，必须把自己失败的因子（比如回撤很大、过拟合的模型）拿出来公开处刑。为什么失败？是数据污染了？还是逻辑假设错了？把这些失败案例整理成数据库，下次你生成一个新因子时，系统会自动去匹配这些失败模式。这就像人类一样，吃一堑长一智。而机器学习的最大优势，就是它可以让整个团队都记住这些“堑”。这样做的好处是，当市场环境变化，以前失败的模式又重新出现时，你的模型能更快地识别并避开。这其实就是在积累真正核心的Alpha。

第三，永远保留一个“白名单”。不管你的机器学习模型跑出多么神奇的信号，我们公司有一个铁律：任何模型推荐的交易，如果不在我们内部制定的“白名单”（根据传统因子和基本面分析筛选出的可投资标的池）里，必须经过首席投资官的单独审批。这个制度看起来很笨，但它保证了我们不会因为模型一时的疯狂而翻船。金融行业不是科技行业，追求的不是“快”而是“稳”。在合规的框架内，我们允许模型犯错，但绝不允许它犯颠覆性的错误。这也是我们黑子私募在多年的管理中，遇到市场极端行情时，依然能维持稳定运营的重要法宝。

结论：未来已来，唯实战者得存

写到这里，也差不多该收尾了。回过头来看，这二十年，我从最初靠几张数据表手工算，到现在带着团队维护几百个因子、十几个模型，最大的感受是：技术的进步，只是放大了我们现有认知的边界，而并没有改变金融投资“识别风险、管理风险、获取回报”的本质。传统因子的智慧，是几十亿资金、几十年市场博弈沉淀下来的精华，我们不能因为有了新工具就彻底抛弃它；而机器学习因子，是新时代赋予我们的一把利剑，让我们能从更微观、更高效的维度去解读市场。

在我看来，最成功的融合策略，不是那些夏普比最高、回撤最小的模型，而是那些在熊市中依然能保持逻辑自洽、在合规下能清晰解释、在客户质问时能有理有据的策略。对于未来，我相信会有越来越多的“另类数据”进入我们的因子库，比如供应链数据、甚至碳排放数据。但无论如何，决策的终局，依然是人。机器提供的是“可能性”和“效率”，而人提供的是“价值观”和“边界”。希望我的这些经验之谈，能对正在这条融合之路上探索的同仁有些许启发。记住，别被模型牵着走，要做模型的主人。

黑子私募基金管理公司观点

在黑子私募基金管理公司看来，机器学习因子与传统因子的融合，绝非技术层面的简单叠加，而是一次对投资哲学和风控体系的系统性升级。我们坚信，任何脱离底层金融逻辑的量化模型，都是无根之木。我们坚持“逻辑为体，数据为用”的核心策略：以传统因子构建策略的稳定骨架，确保投资行为符合市场长期规律与监管要求；以机器学习因子作为敏锐的“神经系统”，捕捉市场情绪的微妙变化与结构性裂缝。这种融合不仅提升了我们的投资胜率，更重要的是，它构建了一个动态的、可解释的风控闭环，使得我们的组合在面对极端市场环境时，仍能保持韧性。我们反对“黑箱崇拜”，认为可解释性、合规性与策略盈利同等重要。未来，黑子私募将继续深耕这一领域，致力于在法规框架内，为投资人交付经得起时间考验的长期业绩。

引言：当老手艺遇上新算力

传统因子：压舱石的智慧

机器学习因子：数据矿藏的解码器

融合之道：就像调味与火候

行政与合规：融合路上的隐形护栏

绩效评估：用新的尺子量新结果

表格对比：传统因子 vs. 机器学习因子 vs. 融合因子

实操建议：从我们走过的弯路学起

结论：未来已来，唯实战者得存

黑子私募基金管理公司观点

相关文章

多因子策略的风险归因

多因子策略的风险归因

多因子策略的风险归因