背景知識：機械学習の金融における限界

「ディープラーニングが株価を予測できるなら、なぜすべてのトップAI企業がクオンツ取引をしていないのか？」

根本的な限界：極めて低いS/N比

ドメイン	S/N比	達成可能な精度
画像認識	高	95%以上
音声認識	高	90%以上
自然言語	中	80%以上
株価予測	極めて低い	52-55%で既にトップティア

なぜ金融のS/N比は低いのか？

市場はほぼ効率的：明白なパターンはすぐに裁定される
多数の参加者：あなたが見つけたパターンを他の人も使っている
ノイズが支配的：短期価格変動の90%はランダムな変動
再帰性：予測そのものが予測対象を変える

限界1：データ不足

ディープラーニングは膨大なデータを必要とするが、金融データは限られている。

データタイプ	サンプルサイズ	ディープラーニング適合性
20年間の日次データ	5,000レコード	全く不十分
5年間の分次データ	500,000レコード	かろうじて使用可能
1年間のTickデータ	数百万レコード	試せる

比較：ImageNetには1400万枚の画像、GPTは数兆トークンで訓練された。

限界2：不安定な分布

訓練データと予測データの分布が異なる（Regime Shift）。

訓練セット（2015-2019）：
  - 主に強気市場
  - ボラティリティ 15%
  - VIX平均 15

テストセット（2020）：
  - COVIDクラッシュ
  - ボラティリティ 80%まで急上昇
  - VIXピーク 82

-> モデルが完全に失敗

ディープラーニングの仮定：訓練データとテストデータが同じ分布から来る。金融市場はこの仮定に違反する。

限界3：過学習しやすい

金融データの「パターン」は単なるノイズかもしれない。

モデル複雑度	訓練セットパフォーマンス	テストセットパフォーマンス	診断
シンプルな線形	年率8%	年率6%	正常
Random Forest	年率25%	年率8%	軽度の過学習
LSTM	年率80%	年率-5%	深刻な過学習
Transformer	年率150%	年率-15%	壊滅的過学習

複雑なモデル ≠ より良い予測；金融では、しばしば逆。

限界4：予測 ≠ 利益

52%の精度はランダムより良く聞こえるが、コスト後に損失になる可能性がある。

仮定：
  - 予測精度 52%
  - 各勝ち 1%、各負け 1%
  - 取引コスト 0.3%

期待リターン = 52% x 1% - 48% x 1% - 0.3%
               = 0.52% - 0.48% - 0.3%
               = -0.26%（損失！）

必要な勝ち/負け比率：
  勝ち 1.5%、負け 1%
  -> 52% x 1.5% - 48% x 1% - 0.3% = 0.28%（わずかな利益）

限界5：解釈性の低さ

ディープラーニングはブラックボックス；金融規制とリスク管理には説明が必要。

シナリオ	線形モデル	ディープラーニング
なぜこの株を買うか？	「高いmomentumファクタースコア」	「ネットワーク出力0.7」
損失帰属	「Valueファクターが失敗」	不明
規制説明	可能	困難
リスク管理調整	単一ファクター調整	再訓練が必要

限界6：ハードウェアとコスト

ディープモデルの訓練には大きな計算能力が必要；クオンツリターンがコストをカバーできない可能性。

リソース	コスト	必要なリターン
GPUクラスター訓練	月$10,000以上	年率 > 10%
データ購入	年$50,000以上	年率 > 5%
人材コスト	年$200,000以上	年率 > 20%

比較：シンプルな移動平均戦略のコストはほぼゼロ。

MLが実際に機能する場合は？

シナリオ	ML有効性	理由
高頻度取引	限定的	レイテンシがモデルより重要
日次株式選択	使用可能	十分なデータ、中程度の複雑さ
月次資産配分	限定的	データが少なすぎる
オルタナティブデータマイニング	価値あり	非構造化データ処理
リスクモデリング	価値あり	ボラティリティ予測がリターンより容易

実践的推奨事項

1. まずシンプルなモデル

第一選択：線形回帰、Ridge回帰、Logistic回帰
第二：Random Forest、XGBoost
最後：LSTM、Transformer

2. モデルより検証

時間の80%を検証に費やす：
- Walk-Forward検証
- 複数期間の安定性
- コスト後のリターン

3. モデルより特徴量

Alphaの80%は特徴量エンジニアリングから来る
20%はモデル選択から

良い特徴量 + シンプルなモデル > 悪い特徴量 + 複雑なモデル

4. リターンの代わりにボラティリティを予測

ボラティリティの方が予測しやすい：
- ボラティリティにはクラスタリング効果がある
- ボラティリティ自己相関 0.7-0.9
- リターン自己相関 ≈ 0

MLでボラティリティを予測 -> ルールで取引

まとめ

限界	影響	対処戦略
低いS/N比	精度55%超えが困難	期待値を下げる
データ不足	過学習しやすい	モデルを簡素化
分布ドリフト	モデル失敗	ローリング再訓練
高コスト	リターンが食われる	回転率を減らす
ブラックボックス	リスク管理困難	解釈性を維持

重要な結論：クオンツ取引におけるMLの価値はシグナル強化であり、価格変動の予測ではない。