背景知识：另类数据（NLP 与卫星）

"当所有人都在看同样的价量数据时，Alpha 在别处。"

什么是另类数据？

传统数据：价格、成交量、财务报表——所有人都能轻易获取

另类数据：从非传统来源提取的、具有预测价值的信息

数据类型	来源示例	预测目标
文本情绪	新闻、社交媒体、财报电话会	短期价格波动
卫星图像	停车场、农田、油罐	营收预测
信用卡交易	消费者支付数据	零售业绩
网页流量	App 下载量、网站访问	用户增长
供应链	航运追踪、港口数据	供需预测

文本数据与 NLP

情绪分析基础

将文本转化为数值信号：

新闻标题："Apple 季度营收创新高，超出分析师预期"
情绪分数：+0.8（正面）

新闻标题："Tesla 被曝存在安全隐患，面临监管调查"
情绪分数：-0.7（负面）

情绪信号的构建

简单方法：词典计数

正面词汇：{"增长", "超预期", "创新高", "突破"...}
负面词汇：{"下跌", "亏损", "调查", "召回"...}

情绪分数 = (正面词数 - 负面词数) / 总词数

进阶方法：预训练语言模型

使用 BERT/GPT 类模型：
1. 输入：新闻全文
2. 输出：情绪类别（正/中/负）或连续分数
3. 优势：理解上下文和讽刺

文本数据源对比

来源	时效性	覆盖度	噪音	成本
新闻（路透、彭博）	分钟级	大盘股	低	$$$$
Twitter/X	秒级	热门股	高	$
Reddit (r/wallstreetbets)	分钟级	散户热门	极高	免费
财报电话会议记录	季度	全覆盖	低	$$
SEC 文件	即时	全覆盖	低	免费

文本信号的时效衰减

新闻发布后情绪信号强度：

   强度
    │
 100│ ████
  80│ ████ ████
  60│ ████ ████ ████
  40│ ████ ████ ████ ████
  20│ ████ ████ ████ ████ ████
    └────────────────────────────→ 时间
        5分  30分  1小时  4小时  1天

结论：情绪信号主要在发布后几小时内有效

卫星数据应用

典型应用场景

零售业：停车场车辆计数

监测：Walmart、Target 停车场
指标：车辆数量变化
预测：季度同店销售增长
领先时间：季报公布前 1-2 周

能源：油罐储量监测

监测：全球原油储存设施
方法：根据浮顶油罐阴影计算储量
预测：原油库存变化
数据频率：每周更新

农业：作物健康监测

监测：美国中西部农田
指标：植被指数（NDVI）
预测：玉米、大豆产量
影响：农产品期货定价

航运：港口活动追踪

监测：全球主要港口
指标：集装箱数量、船舶停留时间
预测：进出口活动、供应链瓶颈
应用：航运股、零售库存

卫星数据处理流程

1. 图像获取
   ├─ 卫星过境频率：每 1-7 天
   ├─ 分辨率：0.3-10 米
   └─ 云层遮挡：需要多日平均

2. 图像处理
   ├─ 大气校正
   ├─ 几何配准
   └─ 目标检测（停车场边界、油罐位置）

3. 特征提取
   ├─ 车辆计数（目标检测模型）
   ├─ 面积计算（像素分析）
   └─ 时间序列构建

4. 信号生成
   ├─ 与历史数据对比
   ├─ 季节性调整
   └─ 标准化（Z-Score）

另类数据的 Alpha 衰减

核心问题：一旦数据被广泛使用，Alpha 消失

另类数据生命周期：

发现期   │ 少数机构使用，Alpha 显著
        │
扩散期   │ 更多人获取，Alpha 下降
        │
成熟期   │ 成为主流，Alpha ≈ 0
        │
        └──────────────────────→ 时间

典型周期：2-5 年

实例：卫星停车场数据

2015 年：少数对冲基金使用，超额收益明显
2018 年：多家数据商提供，竞争加剧
2022 年：已成标配，需要更精细的分析才能获取 Alpha

成本与收益分析

数据类型	年成本	覆盖股票	预期 IC	性价比
新闻情绪	$50K+	500+	0.03	中
社交媒体	$10K	100+	0.02	低
卫星图像	$100K+	50+	0.05	低
信用卡交易	$500K+	200+	0.08	中
网络流量	$30K	100+	0.04	中

经济逻辑：

假设：
- 数据成本：$100,000/年
- 覆盖 50 只股票
- IC 提升：0.05

需要的资金规模：
- 每只股票平仓 $1,000,000
- 总规模 $50,000,000
- 年化提升 0.05 × 12% ≈ 0.6%
- 收益提升 $300,000

结论：至少需要 $50M 规模才划算

自建 vs 购买

维度	自建	购买
成本结构	高固定成本，低边际成本	按数据量付费
时间投入	6-12 个月	即插即用
独特性	可能有独特 Alpha	与他人相同
维护	需要持续投入	供应商负责
适合规模	大型机构	中小型基金

小型团队建议：

免费数据起步（SEC 文件、Reddit、Twitter）
验证信号有效后再购买付费数据
专注于数据处理差异化，而非数据获取

多智能体视角

另类数据在多智能体架构中的角色：

另类数据多智能体架构

常见误区

误区一：另类数据一定有 Alpha

不一定。很多另类数据：

与价格已经同步反应（没有领先性）
噪音太大无法提取信号
样本太少无法验证统计显著性

误区二：LLM 可以轻松提取情绪

需要谨慎。LLM 的挑战：

金融领域术语理解
讽刺和双关语识别
一致性和可复现性
推理成本

误区三：卫星数据很准确

现实更复杂：

云层遮挡导致数据缺失
车辆检测有误差（±10-20%）
季节性和特殊事件需要调整
不同停车场布局影响检测

实用建议

1. 从免费数据开始

推荐起步数据源：
- SEC EDGAR（财报、8-K 文件）
- Twitter API（需要开发者账号）
- Reddit API
- 免费新闻 API

2. 关注信号独特性

问自己：
- 这个信号和价量信号相关吗？
- 多少人已经在用这个数据？
- 我的处理方法有什么独特之处？

3. 小心数据窥探

验证流程：
1. 在样本内发现信号
2. 在样本外测试（必须是未见过的数据）
3. 计算多重检验校正后的 p 值
4. 理解信号背后的经济逻辑

总结

要点	说明
核心价值	在价量数据之外寻找差异化信息
主要类型	文本情绪、卫星图像、交易数据、网络流量
关键挑战	成本高、Alpha 衰减快、噪音大
适用规模	$50M+ 才能覆盖数据成本
起步建议	免费数据 + 独特处理方法