背景知识:另类数据(NLP 与卫星)

"当所有人都在看同样的价量数据时,Alpha 在别处。"


什么是另类数据?

传统数据:价格、成交量、财务报表——所有人都能轻易获取

另类数据:从非传统来源提取的、具有预测价值的信息

数据类型来源示例预测目标
文本情绪新闻、社交媒体、财报电话会短期价格波动
卫星图像停车场、农田、油罐营收预测
信用卡交易消费者支付数据零售业绩
网页流量App 下载量、网站访问用户增长
供应链航运追踪、港口数据供需预测

文本数据与 NLP

情绪分析基础

将文本转化为数值信号:

新闻标题:"Apple 季度营收创新高,超出分析师预期"
情绪分数:+0.8(正面)

新闻标题:"Tesla 被曝存在安全隐患,面临监管调查"
情绪分数:-0.7(负面)

情绪信号的构建

简单方法:词典计数

正面词汇:{"增长", "超预期", "创新高", "突破"...}
负面词汇:{"下跌", "亏损", "调查", "召回"...}

情绪分数 = (正面词数 - 负面词数) / 总词数

进阶方法:预训练语言模型

使用 BERT/GPT 类模型:
1. 输入:新闻全文
2. 输出:情绪类别(正//负)或连续分数
3. 优势:理解上下文和讽刺

文本数据源对比

来源时效性覆盖度噪音成本
新闻(路透、彭博)分钟级大盘股$$$$
Twitter/X秒级热门股$
Reddit (r/wallstreetbets)分钟级散户热门极高免费
财报电话会议记录季度全覆盖$$
SEC 文件即时全覆盖免费

文本信号的时效衰减

新闻发布后情绪信号强度:

   强度
    
 100│ ████
  80│ ████ ████
  60│ ████ ████ ████
  40│ ████ ████ ████ ████
  20│ ████ ████ ████ ████ ████
    └────────────────────────────→ 时间
        5分  30分  1小时  4小时  1天

结论:情绪信号主要在发布后几小时内有效

卫星数据应用

典型应用场景

零售业:停车场车辆计数

监测:Walmart、Target 停车场
指标:车辆数量变化
预测:季度同店销售增长
领先时间:季报公布前 1-2 

能源:油罐储量监测

监测:全球原油储存设施
方法:根据浮顶油罐阴影计算储量
预测:原油库存变化
数据频率:每周更新

农业:作物健康监测

监测:美国中西部农田
指标:植被指数(NDVI)
预测:玉米、大豆产量
影响:农产品期货定价

航运:港口活动追踪

监测:全球主要港口
指标:集装箱数量、船舶停留时间
预测:进出口活动、供应链瓶颈
应用:航运股、零售库存

卫星数据处理流程

1. 图像获取
   ├─ 卫星过境频率:每 1-7 
   ├─ 分辨率:0.3-10 
   └─ 云层遮挡:需要多日平均

2. 图像处理
   ├─ 大气校正
   ├─ 几何配准
   └─ 目标检测(停车场边界、油罐位置)

3. 特征提取
   ├─ 车辆计数(目标检测模型)
   ├─ 面积计算(像素分析)
   └─ 时间序列构建

4. 信号生成
   ├─ 与历史数据对比
   ├─ 季节性调整
   └─ 标准化(Z-Score)

另类数据的 Alpha 衰减

核心问题:一旦数据被广泛使用,Alpha 消失

另类数据生命周期:

发现期    少数机构使用,Alpha 显著
        
扩散期    更多人获取,Alpha 下降
        
成熟期    成为主流,Alpha  0
        
        └──────────────────────→ 时间

典型周期:2-5 

实例:卫星停车场数据

  • 2015 年:少数对冲基金使用,超额收益明显
  • 2018 年:多家数据商提供,竞争加剧
  • 2022 年:已成标配,需要更精细的分析才能获取 Alpha

成本与收益分析

数据类型年成本覆盖股票预期 IC性价比
新闻情绪$50K+500+0.03
社交媒体$10K100+0.02
卫星图像$100K+50+0.05
信用卡交易$500K+200+0.08
网络流量$30K100+0.04

经济逻辑

假设:
- 数据成本:$100,000/
- 覆盖 50 只股票
- IC 提升:0.05

需要的资金规模:
- 每只股票平仓 $1,000,000
- 总规模 $50,000,000
- 年化提升 0.05 × 12%  0.6%
- 收益提升 $300,000

结论:至少需要 $50M 规模才划算

自建 vs 购买

维度自建购买
成本结构高固定成本,低边际成本按数据量付费
时间投入6-12 个月即插即用
独特性可能有独特 Alpha与他人相同
维护需要持续投入供应商负责
适合规模大型机构中小型基金

小型团队建议

  • 免费数据起步(SEC 文件、Reddit、Twitter)
  • 验证信号有效后再购买付费数据
  • 专注于数据处理差异化,而非数据获取

多智能体视角

另类数据在多智能体架构中的角色:

另类数据多智能体架构


常见误区

误区一:另类数据一定有 Alpha

不一定。很多另类数据:

  • 与价格已经同步反应(没有领先性)
  • 噪音太大无法提取信号
  • 样本太少无法验证统计显著性

误区二:LLM 可以轻松提取情绪

需要谨慎。LLM 的挑战:

  • 金融领域术语理解
  • 讽刺和双关语识别
  • 一致性和可复现性
  • 推理成本

误区三:卫星数据很准确

现实更复杂:

  • 云层遮挡导致数据缺失
  • 车辆检测有误差(±10-20%)
  • 季节性和特殊事件需要调整
  • 不同停车场布局影响检测

实用建议

1. 从免费数据开始

推荐起步数据源:
- SEC EDGAR(财报、8-K 文件)
- Twitter API(需要开发者账号)
- Reddit API
- 免费新闻 API

2. 关注信号独特性

问自己:
- 这个信号和价量信号相关吗?
- 多少人已经在用这个数据?
- 我的处理方法有什么独特之处?

3. 小心数据窥探

验证流程:
1. 在样本内发现信号
2. 在样本外测试(必须是未见过的数据)
3. 计算多重检验校正后的 p 
4. 理解信号背后的经济逻辑

总结

要点说明
核心价值在价量数据之外寻找差异化信息
主要类型文本情绪、卫星图像、交易数据、网络流量
关键挑战成本高、Alpha 衰减快、噪音大
适用规模$50M+ 才能覆盖数据成本
起步建议免费数据 + 独特处理方法
Cite this chapter
Zhang, Wayland (2026). 另类数据(NLP 与卫星). In AI Quantitative Trading: From Zero to One. https://waylandz.com/quant-book/另类数据(NLP与卫星)
@incollection{zhang2026quant_另类数据(NLP与卫星),
  author = {Zhang, Wayland},
  title = {另类数据(NLP 与卫星)},
  booktitle = {AI Quantitative Trading: From Zero to One},
  year = {2026},
  url = {https://waylandz.com/quant-book/另类数据(NLP与卫星)}
}