HKU 30-Slide Deck Outline · 2026-05-20¶
目的:把聚焦版 outline 扩展成 30 页现场汇报 PPT。
主线:recent project → verifier asset → negative result → structured review → financial SOTA → statistical rigor → baseline suite → HKU ask。
Slide List¶
| # | Section | Claim |
|---|---|---|
| 1 | Opening | From verifier asset to baseline suite |
| 2 | Thesis | 这次汇报不是 finished agent,而是把项目压成研究问题 |
| 3 | Roadmap | 30 页把每个判断拆成 proof object |
| 4 | Recent project | 核心资产是 verifier 侧 |
| 5 | Production boundary | LLM 只生成 schema intent,不直接交易 |
| 6 | Verifier anatomy | M8.6 把候选 alpha 变成可拒绝、可复测对象 |
| 7 | Walk-forward pipeline | 研究 verifier 必须反复暴露候选规则 |
| 8 | Verification meaning | Verifier 的价值在于拒绝候选 |
| 9 | Negative result | Time-slice stability 是瓶颈 |
| 10 | Why failure matters | failure 把问题从更强模型转向可迁移稳定性 |
| 11 | Review workload | review 是结构化 mapping |
| 12 | Artifact ledger | 五份 artifact 对应五个决策功能 |
| 13 | AI discovery pattern | AI-for-science 给的是 generator-verifier 工程范式 |
| 14 | Mapping | 我强在 verification half,弱在 generation half |
| 15 | Financial SOTA | 一线系统很近,所以 claim 必须更窄 |
| 16 | SOTA landscape | 金融 SOTA 要按任务类型拆开 |
| 17 | Gap matrix | 抽取 benchmark 威胁维度,而不是只列论文名 |
| 18 | AlphaBench | 不能 claim “没人做 benchmark” |
| 19 | RD-Agent(Q) | full R&D agent 是强威胁,但不是第一步 |
| 20 | Search baselines | QuantaAlpha / AlphaAgent / Alpha Jungle 应进入 baseline set |
| 21 | Safety/memory/code | Hubble / FactorMiner / CogAlpha 提醒 agent 不只是 prompting |
| 22 | Boundary | Trading-decision agents 是邻域,不是核心对象 |
| 23 | Evaluation rigor | Alpha search 本质上是 multiple testing |
| 24 | Statistical methods | DSR / PBO / null search 是 benchmark 地基 |
| 25 | Proposal shift | survey 把 proposal 从 broad agent 改成 baseline-first |
| 26 | Claim boundary | 修正后的 claim 更窄但更 defendable |
| 27 | Baseline plan | 五个 baseline 放到同一个 verifier 下 |
| 28 | Baseline A | M8.6 tradability gate 是独特资产 |
| 29 | Baselines B-E | 同时比较 symbolic、LLM、agent、human-assisted 路线 |
| 30 | v0 + Ask | 用一张 baseline table 决定下一步 |
Recommended Talk Path¶
- 时间紧:讲 1, 2, 4, 9, 12, 16, 18, 24, 25, 28, 30。
- 时间充足:按 30 页顺序讲,survey 部分可以重点停在 16-21,显示工作量。
- 明天核心 ask:在 Baseline A-E 中,哪一个最像第一篇 research artifact?