背景知識:機械学習の金融における限界
「ディープラーニングが株価を予測できるなら、なぜすべてのトップAI企業がクオンツ取引をしていないのか?」
根本的な限界:極めて低いS/N比
| ドメイン | S/N比 | 達成可能な精度 |
|---|---|---|
| 画像認識 | 高 | 95%以上 |
| 音声認識 | 高 | 90%以上 |
| 自然言語 | 中 | 80%以上 |
| 株価予測 | 極めて低い | 52-55%で既にトップティア |
なぜ金融のS/N比は低いのか?
- 市場はほぼ効率的:明白なパターンはすぐに裁定される
- 多数の参加者:あなたが見つけたパターンを他の人も使っている
- ノイズが支配的:短期価格変動の90%はランダムな変動
- 再帰性:予測そのものが予測対象を変える
限界1:データ不足
ディープラーニングは膨大なデータを必要とするが、金融データは限られている。
| データタイプ | サンプルサイズ | ディープラーニング適合性 |
|---|---|---|
| 20年間の日次データ | 5,000レコード | 全く不十分 |
| 5年間の分次データ | 500,000レコード | かろうじて使用可能 |
| 1年間のTickデータ | 数百万レコード | 試せる |
比較:ImageNetには1400万枚の画像、GPTは数兆トークンで訓練された。
限界2:不安定な分布
訓練データと予測データの分布が異なる(Regime Shift)。
訓練セット(2015-2019):
- 主に強気市場
- ボラティリティ 15%
- VIX平均 15
テストセット(2020):
- COVIDクラッシュ
- ボラティリティ 80%まで急上昇
- VIXピーク 82
-> モデルが完全に失敗
ディープラーニングの仮定:訓練データとテストデータが同じ分布から来る。金融市場はこの仮定に違反する。
限界3:過学習しやすい
金融データの「パターン」は単なるノイズかもしれない。
| モデル複雑度 | 訓練セットパフォーマンス | テストセットパフォーマンス | 診断 |
|---|---|---|---|
| シンプルな線形 | 年率8% | 年率6% | 正常 |
| Random Forest | 年率25% | 年率8% | 軽度の過学習 |
| LSTM | 年率80% | 年率-5% | 深刻な過学習 |
| Transformer | 年率150% | 年率-15% | 壊滅的過学習 |
複雑なモデル ≠ より良い予測;金融では、しばしば逆。
限界4:予測 ≠ 利益
52%の精度はランダムより良く聞こえるが、コスト後に損失になる可能性がある。
仮定:
- 予測精度 52%
- 各勝ち 1%、各負け 1%
- 取引コスト 0.3%
期待リターン = 52% x 1% - 48% x 1% - 0.3%
= 0.52% - 0.48% - 0.3%
= -0.26%(損失!)
必要な勝ち/負け比率:
勝ち 1.5%、負け 1%
-> 52% x 1.5% - 48% x 1% - 0.3% = 0.28%(わずかな利益)
限界5:解釈性の低さ
ディープラーニングはブラックボックス;金融規制とリスク管理には説明が必要。
| シナリオ | 線形モデル | ディープラーニング |
|---|---|---|
| なぜこの株を買うか? | 「高いmomentumファクタースコア」 | 「ネットワーク出力0.7」 |
| 損失帰属 | 「Valueファクターが失敗」 | 不明 |
| 規制説明 | 可能 | 困難 |
| リスク管理調整 | 単一ファクター調整 | 再訓練が必要 |
限界6:ハードウェアとコスト
ディープモデルの訓練には大きな計算能力が必要;クオンツリターンがコストをカバーできない可能性。
| リソース | コスト | 必要なリターン |
|---|---|---|
| GPUクラスター訓練 | 月$10,000以上 | 年率 > 10% |
| データ購入 | 年$50,000以上 | 年率 > 5% |
| 人材コスト | 年$200,000以上 | 年率 > 20% |
比較:シンプルな移動平均戦略のコストはほぼゼロ。
MLが実際に機能する場合は?
| シナリオ | ML有効性 | 理由 |
|---|---|---|
| 高頻度取引 | 限定的 | レイテンシがモデルより重要 |
| 日次株式選択 | 使用可能 | 十分なデータ、中程度の複雑さ |
| 月次資産配分 | 限定的 | データが少なすぎる |
| オルタナティブデータマイニング | 価値あり | 非構造化データ処理 |
| リスクモデリング | 価値あり | ボラティリティ予測がリターンより容易 |
実践的推奨事項
1. まずシンプルなモデル
第一選択:線形回帰、Ridge回帰、Logistic回帰
第二:Random Forest、XGBoost
最後:LSTM、Transformer
2. モデルより検証
時間の80%を検証に費やす:
- Walk-Forward検証
- 複数期間の安定性
- コスト後のリターン
3. モデルより特徴量
Alphaの80%は特徴量エンジニアリングから来る
20%はモデル選択から
良い特徴量 + シンプルなモデル > 悪い特徴量 + 複雑なモデル
4. リターンの代わりにボラティリティを予測
ボラティリティの方が予測しやすい:
- ボラティリティにはクラスタリング効果がある
- ボラティリティ自己相関 0.7-0.9
- リターン自己相関 ≈ 0
MLでボラティリティを予測 -> ルールで取引
まとめ
| 限界 | 影響 | 対処戦略 |
|---|---|---|
| 低いS/N比 | 精度55%超えが困難 | 期待値を下げる |
| データ不足 | 過学習しやすい | モデルを簡素化 |
| 分布ドリフト | モデル失敗 | ローリング再訓練 |
| 高コスト | リターンが食われる | 回転率を減らす |
| ブラックボックス | リスク管理困難 | 解釈性を維持 |
重要な結論:クオンツ取引におけるMLの価値はシグナル強化であり、価格変動の予測ではない。