Part 9: 前沿实践

最新热点：Computer Use、Agentic Coding、Background Agents、分层模型策略

章节列表

章节	标题	核心问题	Shannon关联
27	Computer Use	如何让Agent操作浏览器和桌面？	`config/models.yaml` multimodal
28	Agentic Coding	如何构建代码生成Agent？	`file_ops.py`, `wasi_sandbox.rs`
29	Background Agents	如何实现异步长时任务？	`schedules/manager.go`
30	分层模型策略	如何优化50-70%的成本？	`config/models.yaml`, `manager.py`

章节摘要

第 27 章：Computer Use

当 Agent 获得"眼睛"和"手"：从调用 API 到操作真实界面

核心内容:

感知-决策-执行循环: 截屏理解 → 坐标计算 → 点击/输入 → 结果验证
多模态模型集成: 视觉理解是 Computer Use 的关键能力
坐标校准: 处理不同分辨率和 DPI 缩放差异
安全防护: 危险区域检测、输入内容过滤、OPA 策略扩展
验证循环: 每次操作后截图验证结果，失败自动重试

Shannon 代码: config/models.yaml (multimodal_models), 建议工具扩展模式

第 28 章：Agentic Coding

让 Agent 成为你的编程伙伴：从代码生成到完整开发工作流

核心内容:

安全文件操作: 白名单目录、路径验证、符号链接防护
WASI 沙箱执行: Fuel/Epoch 限制、内存隔离、超时控制
代码反思循环: 生成 → 审查 → 改进的迭代过程
多文件编辑协调: 原子化变更、备份回滚机制
Git 集成: 分支管理、自动提交、PR 创建

Shannon 代码: python/llm-service/llm_service/tools/builtin/file_ops.py, rust/agent-core/src/wasi_sandbox.rs, go/orchestrator/internal/workflows/patterns/reflection.go

第 29 章：Background Agents

让任务在后台持续运行：Temporal 调度与定时任务系统

核心内容:

Temporal Schedule API: 原生 Cron 调度、暂停/恢复、时区支持
资源限制: MaxPerUser (50)、MinCronInterval (60min)、MaxBudgetPerRunUSD ($10)
ScheduledTaskWorkflow: 包装器工作流，记录执行元数据（模型、Token、成本）
孤儿检测: 定期检测 Temporal 与数据库状态不一致，自动清理
预算注入: 每次执行的成本追踪与限制

Shannon 代码: schedules/manager.go, scheduled_task_workflow.go

第 30 章：分层模型策略

智能路由实现 50-70% 成本降低：不是每个任务都需要最强模型

核心内容:

三层架构: Small (50%) / Medium (40%) / Large (10%) 目标分布
优先级路由: 同层级多 Provider 按优先级选择，自动 Fallback
复杂度分析: 根据任务特征自动选择模型层级
能力矩阵: multimodal、thinking、coding、long_context 能力标记
熔断降级: Circuit Breaker + 自动降级到备选 Provider
成本追踪: 集中式定价配置、实时成本监控

Shannon 代码: config/models.yaml, llm_provider/manager.py

学习目标

完成本 Part 后，你将能够：

理解 Computer Use 的感知-决策-执行循环
设计安全的 Agentic Coding 工作流（沙箱 + 反思）
使用 Temporal Schedule API 实现定时后台任务
配置三层模型策略实现 50-70% 成本降低
为 Research Agent 添加前沿能力 (v0.9)

Shannon 代码导读

Shannon/
├── config/
│   └── models.yaml                    # 三层模型配置、定价、能力矩阵
├── go/orchestrator/
│   └── internal/
│       ├── schedules/
│       │   └── manager.go             # 定时任务管理器 (CRUD, 资源限制)
│       └── workflows/scheduled/
│           └── scheduled_task_workflow.go  # 包装器工作流
├── python/llm-service/
│   ├── llm_provider/
│   │   └── manager.py                 # LLM管理器 (路由, 熔断, Fallback)
│   └── llm_service/tools/builtin/
│       ├── file_ops.py                # 安全文件读写工具
│       └── python_wasi_executor.py    # Python沙箱执行
└── rust/agent-core/src/sandbox/
    └── wasi_sandbox.rs                # WASI沙箱实现

成本优化示例

不分层 (全用 Large):
  1M requests × $0.09/request = $90,000/月

分层策略 (50/40/10):
  Small:  500K × $0.0006  = $300
  Medium: 400K × $0.0018  = $720
  Large:  100K × $0.09    = $9,000
  总计: $10,020/月

节省: $79,980/月 (89%)

前置知识

Part 1-8 完成（特别是 Part 7-8 的生产架构和企业级特性）
浏览器自动化基础 (Playwright/Puppeteer) - 可选
Cron 表达式基础 - 可选
多模型 API 经验 - 可选

Research Agent v0.9

本 Part 涵盖的前沿能力模块：

模块	章节	能力
Computer Use	第27章	网页浏览、内容提取
Agentic Coding	第28章	分析脚本生成
Background Agents	第29章	定时研究报告
Tiered Models	第30章	智能模型选择

最终形态:

用户: "每天早上9点生成AI行业日报"

Research Agent v0.9:
1. [Schedule] 创建 Cron 定时任务 (0 9 * * *)
2. [Tiered] 用 Small 模型做复杂度评估
3. [Multi-Agent] 并行执行搜索/分析/写作
4. [Browser] 访问无API网站提取内容
5. [Coding] 生成数据可视化脚本
6. [Budget] 控制每次执行成本 < $2
7. [Output] 发送结构化报告

话题	代表产品	Shannon 实现	章节
Computer Use	Claude Computer Use, Manus	多模态 + 工具扩展	Ch27
Agentic Coding	Claude Code, Cursor, Windsurf	WASI 沙箱 + 文件工具	Ch28
Background Agents	Claude Code Ctrl+B	Temporal Schedule API	Ch29
Cost Optimization	企业降本需求	三层模型策略	Ch30

Part 9: 前沿实践

章节列表

章节摘要

第 27 章：Computer Use

第 28 章：Agentic Coding

第 29 章：Background Agents

第 30 章：分层模型策略

学习目标

Shannon 代码导读

热门话题关联

成本优化示例

前置知识

Research Agent v0.9