背景知识:前沿 ML 与 RL 方法(2025)
本文梳理 2025 年量化交易领域最前沿的机器学习和强化学习方法。这些是顶级量化机构(Two Sigma、Citadel、幻方、九坤)正在探索或已在使用的技术。
一、技术演进概览
1.1 从传统到前沿
| 代际 | 代表技术 | 状态 |
|---|---|---|
| 第一代 | 线性回归、Logistic | 基础,仍在使用 |
| 第二代 | LSTM、GRU | 仍有应用场景(低延迟、小数据),但主流关注已转向 Transformer |
| 第三代 | Transformer、GNN | 当前主流 |
| 第四代 | Foundation Models、Diffusion | 前沿探索 |
注意:LSTM/GRU 并非完全过时。在低延迟场景(
< 1ms推理)、小数据集、或简单时序预测中,它们仍是合理选择。详见模型架构选择指南。
1.2 头部机构技术布局
| 机构 | 公开技术方向 | 算力投入 |
|---|---|---|
| 幻方量化 | DeepSeek大模型、萤火二号AI集群 | 10亿+元 |
| 九坤投资 | 与微软合作垂直场景AI | 未披露 |
| Two Sigma | 数据科学+大规模ML | 600亿美元AUM支撑 |
| Citadel | 高频交易基础设施+AI | 持续招聘AI人才 |
二、Decision Transformer(决策 Transformer)
2.1 核心思想
将强化学习问题转化为序列建模问题:
传统RL: State → Policy → Action → Reward → 更新Policy
Decision Transformer: (Return, State, Action)序列 → 下一个Action
关键创新:
- 不需要值函数估计
- 不需要策略梯度
- 直接用Transformer建模"如果我想要这个收益,应该怎么做"
2.2 GPT-2 + LoRA 用于交易
最新研究(2024年11月):
架构:
Pre-trained GPT-2
↓
LoRA 微调 (Low-Rank Adaptation)
↓
Decision Transformer for Trading
为什么有效:
- GPT-2 的预训练权重提供强大的序列建模能力
- LoRA 仅微调少量参数(~0.1%),高效且防止过拟合
- 适合金融数据稀缺的场景
性能:与 CQL、IQL、BC 等离线RL算法竞争力相当,在某些场景下更优
2.3 TACR(Transformer Actor-Critic with Regularization)
解决问题:传统RL假设马尔可夫性(只看当前状态),但金融市场有长期依赖
方法:用 Decision Transformer 的注意力机制建模历史 MDP 序列
延伸练习:实现一个简单的 Decision Transformer 交易框架
三、LLM 驱动的 Alpha 挖掘
3.1 AlphaAgent 框架
核心思想:多智能体协作挖掘 Alpha 因子
架构:
┌─────────────────────────────────────────────────────┐
│ AlphaAgent 系统 │
├─────────────────────────────────────────────────────┤
│ Research Agent → 生成因子假设 │
│ ↓ │
│ Backtest Agent → 验证因子有效性 │
│ ↓ │
│ Risk Agent → 评估因子风险特性 │
│ ↓ │
│ Portfolio Agent → 组合优化与权重分配 │
└─────────────────────────────────────────────────────┘
关键特点:
- 多智能体分工:每个 Agent 专注单一任务,避免单一 LLM 的能力瓶颈
- 迭代优化:通过回测反馈持续改进因子
- 风险意识:Risk Agent 内置于流程中,非事后检查
- 可解释性:每个决策节点都有清晰的推理链
与传统方法对比:
| 特性 | 传统量化 | 单一 LLM | AlphaAgent |
|---|---|---|---|
| 因子挖掘效率 | 低(人工) | 中 | 高 |
| 风险控制 | 事后 | 弱 | 内置 |
| 可解释性 | 高 | 低 | 高 |
| 迭代速度 | 慢 | 快 | 快 |
3.2 LLM-Guided RL
来源:arXiv 2508.02366(2025年)
核心思想:
LLM: 生成高层策略("市场处于上涨趋势,建议超配科技股")
↓
RL Agent: 执行具体交易("买入AAPL 100股,限价$185")
↓
Reward: 反馈给LLM改进策略
优势:
- LLM 提供可解释的高层逻辑
- RL 优化低层执行细节
- 两者互补
实验结果:在6只股票中,4只的夏普比率优于纯RL基线
3.3 Alpha-GPT 2.0
定位:Human-in-the-Loop AI
流程:
- LLM 生成因子候选
- 人类专家审查/修改
- 回测验证
- 反馈改进
适用场景:需要人工把控的机构级应用
延伸练习:实现一个简单的 LLM 因子生成 pipeline
四、图神经网络(GNN)
4.1 为什么需要 GNN
传统方法的局限:
- 假设股票独立
- 忽略关联关系
市场现实:
- 供应链关系(Apple → 台积电)
- 行业关联(银行股同涨同跌)
- 宏观因子(利率影响所有股票)
4.2 Role-Aware Graph Transformer
来源:2025年12月研究
多关系建模:
| 边类型 | 含义 | 构建方式 |
|---|---|---|
| Correlation | 价格相关性 | 历史收益率相关系数 |
| Fundamental | 基本面相似 | PE、PB、ROE等 |
| Sector | 行业关系 | GICS分类 |
| Supply Chain | 供应链 | 财报披露 |
角色感知:
- Hub Stocks(如AAPL、MSFT):影响很多其他股票
- Bridge Stocks:连接不同行业
- Peripheral Stocks:被动跟随
4.3 TFT-GNN 混合模型
Temporal Fusion Transformer + Graph Neural Network
时间维度: TFT 捕捉
↓
关系维度: GNN 建模
↓
融合层
↓
预测
性能:MSE 降低 10.6%(对比单独TFT)
延伸练习:实现一个简单的股票关系图构建和 GNN 预测
五、扩散模型(Diffusion Models)
5.1 应用场景
| 场景 | 传统方法 | 扩散模型优势 |
|---|---|---|
| 合成数据生成 | GAN | 更稳定,无模式崩塌 |
| 市场模拟 | 蒙特卡洛 | 更真实的统计特性 |
| LOB模拟 | 规则模型 | 捕捉复杂动态 |
5.2 TRADES 框架
来源:arXiv 2502.07071(2025年2月)
定位:TRAnsformer-based Denoising Diffusion for LOB Simulations
架构:
Limit Order Book State
↓
Transformer Encoder(捕捉时空特征)
↓
DDPM(去噪扩散)
↓
生成的订单流
性能:Predictive Score 提升 3.27x(对比SOTA)
开源:DeepMarket(首个开源LOB深度学习模拟框架)
5.3 Wavelet + DDPM 方法
来源:arXiv 2410.18897
创新:将时间序列转为图像
多时间序列(价格、成交量、价差)
↓
小波变换 → 图像
↓
DDPM 生成新图像
↓
逆小波变换 → 合成时间序列
优势:
- 捕捉金融数据的 stylized facts(肥尾、波动聚集)
- 生成质量优于 GAN
- 可用于回测数据增强
5.4 应用价值
| 应用 | 说明 |
|---|---|
| 数据增强 | 扩充稀缺的历史数据 |
| 压力测试 | 生成极端市场场景 |
| 回测稳健性 | 多场景验证策略 |
| 隐私保护 | 生成合成数据替代真实数据 |
延伸练习:研究 TRADES 框架的可用性,评估是否可以集成
六、时间序列基础模型
6.1 概览
| 模型 | 开发者 | 参数量 | 特点 |
|---|---|---|---|
| Chronos-2 | Amazon | 120M | 最新(2025年10月) |
| TimeGPT | Nixtla | - | 100B+ tokens 训练 |
| TimesFM | - | - | |
| Moirai | Salesforce | - | - |
6.2 Chronos-2
发布:2025年10月20日
能力:
- 零样本预测(无需微调)
- 单变量 / 多变量 / 协变量
- 单一架构支持所有场景
下载量:600M+(Hugging Face)
6.3 金融应用注意事项
研究发现:
- 通用基础模型在金融领域效果有限
- 领域对齐的模型(如 FinCast)表现更好
- 金融数据的低信噪比是主要挑战
建议:
- 作为基线参考
- 可能需要金融数据微调
- 不建议直接用于生产信号
延伸练习:评估 Chronos-2 在股票预测任务上的零样本效果
七、强化学习前沿
7.1 算法选择指南(2025)
| 场景 | 推荐算法 | 原因 |
|---|---|---|
| 投资组合配置 | PPO | 连续动作空间,稳定 |
| 订单执行优化 | SAC | 探索性强,适应波动 |
| 离散交易决策 | DQN | 简单有效 |
| 风险感知投资 | QR-DDPG | 分位数回归捕捉尾部风险 |
7.2 Hybrid Approaches 趋势
2025年数据:
- 混合方法采用率:42%(2020年仅15%)
- 纯RL采用率:58%(2020年85%)
混合优势:
| 组合 | 应用 | 提升 |
|---|---|---|
| LSTM-DQN | 投资组合优化 | +15.4% |
| CNN-PPO | 加密货币交易 | +17.9% |
| Attention-DDPG | 做市 | +16.3% |
7.3 IMM(Imitative Market Maker)
来源:IJCAI 2024
创新:
- 多价格水平订单簿建模
- 模仿学习(从专家做市商学习)
- 结合专家信号
应用:做市策略的RL优化
7.4 FinRL框架
定位:金融强化学习的开源标准框架
特点:
- 基于 OpenAI Gym 的标准化环境
- 集成 DQN、PPO、A3C、SAC 等算法
- 支持回测和风险评估
推荐使用:作为 RL 策略开发的起点
延伸练习:评估 FinRL 集成到现有框架的可行性
八、多智能体系统
8.1 动态门控架构
核心思想:
优势:
- 每个 Agent 专注特定市场状态
- 避免单一模型过拟合
- 动态适应市场变化
8.2 FinMem
定位:带分层记忆的 LLM 交易 Agent
记忆结构:
- 短期记忆:近期市场事件
- 工作记忆:当前持仓和决策上下文
- 长期记忆:历史模式和经验教训
8.3 TwinMarket
来源:Yang et al. 2025
特点:模拟市场中的个体行为和集体动态
应用:
- 研究金融泡沫形成
- 理解市场涌现现象
- 策略在复杂市场中的表现测试
延伸练习:研究多智能体门控机制的实现
九、实践路线图
9.1 优先级排序
| 优先级 | 技术 | 理由 |
|---|---|---|
| P0 | LLM-Guided RL | 可解释性 + 性能 |
| P0 | Chain-of-Alpha | 自动化因子挖掘 |
| P1 | GNN 关系建模 | 捕捉市场结构 |
| P1 | Decision Transformer | 替代传统RL |
| P2 | 扩散模型 | 数据增强/压力测试 |
| P2 | 时间序列基础模型 | 零样本预测能力 |
9.2 实施建议
短期(1-3个月):
- 评估 FinRL 框架
- 实现简单的 LLM 因子生成 pipeline
- 构建股票关系图
中期(3-6个月):
- 实现 Decision Transformer 框架
- 集成 GNN 进行关系预测
- 开发多智能体门控系统
长期(6-12个月):
- 完整的 Chain-of-Alpha 系统
- 扩散模型用于数据增强
- 生产级部署和监控
十、参考资源
论文
- Chain-of-Alpha: arXiv 2508.06312
- LLM-Guided RL: arXiv 2508.02366
- Decision Transformer for Trading: arXiv 2411.17900
- TRADES: arXiv 2502.07071
- GNN Survey for Stock: ACM Computing Surveys 2024
- RL in Finance Review: arXiv 2512.10913
开源框架
- FinRL: https://github.com/AI4Finance-Foundation/FinRL
- DeepMarket: (随TRADES论文发布)
- Chronos-2: https://huggingface.co/amazon/chronos-2
- FinGPT: https://github.com/AI4Finance-Foundation/FinGPT
数据集
- FinRL Contest 数据集
- LOBSTER(学术LOB数据)
核心原则:追踪前沿,但不盲目追新。每项技术都需要在你的具体场景中验证,而非照搬论文结论。头部机构的优势在于能够大规模试错和迭代,而非使用了某个"神奇"的模型。