Skip to content

HKU 汇报聚焦版大纲 · 2026-05-20

目标:把内容从“完整项目介绍”收束成一条更清楚的研究汇报线。
推荐时长:12-15 分钟汇报 + 讨论。
核心结构:最近做了什么 → review 发现了什么 → 下一步可以尝试哪些 baseline


0. 一句话开场

我最近做了两类工作:一类是把 crypto trading agent 推到一个可验证的 production research testbed;另一类是系统 review 了 AI-driven alpha search 和金融 agent SOTA。我的当前判断是:与其马上做一个复杂 agent,不如先定义几个可复现 baseline,看看在严格 crypto verifier 下哪些路线真正站得住。

更短版本:

我最近完成了一个可执行 alpha verifier,也做了金融 SOTA agent review;下一步最现实的研究推进,是先做一组 baseline,把 alpha auto-search 的问题变成可比较实验。


1. 第一部分:我最近具体做了什么

时间:3-4 分钟。
目的:只讲和研究问题有关的工程资产,不展开完整产品史。

1.1 Production crypto trading agent

只保留三点:

  • LLM 不直接接触 OMS,只产生 schema intent。
  • 下单前必须经过 deterministic risk gate、button confirmation、OMS、audit、kill switch。
  • 这个系统的研究价值不是“让 LLM 交易”,而是提供一个 hard verifier。

一句话:

The system is useful for research because it enforces generator-verifier separation in a real execution setting.

1.2 M8.6 walk-forward verifier

保留最关键指标:

  • 526 Binance USD-M perpetual symbols。
  • 15s bar + microstructure features。
  • 12-fold rolling walk-forward。
  • microstructure gate + adaptive state controller。

要讲清楚的点:

这不是一个 isolated backtest,而是一个能反复筛选、验证、降级、拒绝候选 symbol/alpha 的 verifier。

1.3 最近的 negative result

这是最值得讲的研究信号。

Experiment Validation / Search Chronological Test Interpretation
LightGBM +44.65 MTM -86.87 MTM validation signal did not transfer
Optuna TPE +44.46 objective -105.78 objective search overfit the time slice

结论:

The bottleneck is time-slice stability, not model capacity.

中文:

当前问题不是模型不够强,而是候选规则在时间切片之间不稳定。

这自然引到 Prof. Guodong Li:

如果时间切片不稳定是核心问题,那么显式 recurrence prior / statistical verification 可能比盲目扩大模型更重要。


2. 第二部分:我做了什么 review

时间:5-6 分钟。
目的:证明自己不是只从个人项目出发,而是已经做了一轮结构化领域 mapping,并且这轮 review 改变了你的 proposal。

开头可以这样说:

为了避免把自己的 production experience 误当成 research gap,我做了三层 review:AI discovery 的通用范式、金融 alpha-mining / agent SOTA、以及 backtest overfitting 的统计方法论。最后产出不是一堆 citation,而是一个 baseline design decision。

2.0 Review 工作量一页概览

可以用一页 slide 展示你做过的 artifact,而不是逐篇念论文。

Review Artifact 覆盖内容 作用
alpha_search_baselines.md FunSearch / AlphaProof / AlphaEvolve / AI Scientist / ASI-ARCH 抽象出 generator-verifier、cognition base、compute-scaled discovery
alpha_search_survey_taxonomy_and_bibliography.md 8-tradition systematic survey 把 alpha auto-search 放到更完整的研究谱系里
alpha_search_deep_reads_expanded.md PBO/DSR、time-series foundation models、AlphaEval 把 proposal 从“agent idea”拉回严格评估
financial_sota_agent_survey.md AlphaBench、RD-Agent(Q)、Hubble、FactorMiner、CogAlpha 等 SOTA 明确哪些 claim 不能说,哪些 gap 还成立
crypto_alpha_bench_risk_analysis.md 7 个反方风险 + ETH validation experiment 让计划变成可被反驳、可收敛的实验

一句话:

这轮 review 之后,我把原来比较大的“做一个 alpha agent”收缩成更稳的“先做 baseline suite / verifier benchmark”。

2.1 AI for Science / AI discovery review

这一层回答:

为什么 alpha search 可以借鉴 AI-for-science,而不是只是金融工程?

代表性工作:

  • FunSearch。
  • AlphaProof / AlphaGeometry。
  • AlphaEvolve。
  • AI Scientist。
  • ASI-ARCH。

我从这些工作抽出的共同模式:

  1. Generator-verifier separation。
  2. Structured cognition base / domain prior。
  3. Multi-agent decomposition。
  4. Compute-scaled discovery。

和我的项目的映射:

Pattern My current status
Generator-verifier separation 已经在 production system 里实现
Hard verifier 已有 risk gate / OMS / walk-forward verifier
Cognition base 还没有
Researcher agent 还没有
Compute-scaled discovery 还没有

一句话:

我不是从 agent architecture 开始,而是从 verifier 开始;这和 AI discovery 的成功模式是对齐的。

2.2 Financial SOTA agent / alpha mining review

这一层回答:

现有金融 agent / alpha-mining SOTA 已经做到哪里?我还能 claim 什么?

这里要主动承认:领域已经很近了,不能说没人做。

必须提到的系统:

Category Examples What they cover
Formula alpha benchmark AlphaBench, AlphaEval formula generation / evaluation
Quant R&D agents RD-Agent(Q), Beyond Prompting hypothesis → code → backtest
Alpha search methods QuantaAlpha, AlphaAgent, Alpha Jungle, AlphaSAGE LLM search / MCTS / GFlowNet
Safety / memory agents Hubble, FactorMiner, CogAlpha sandbox, memory, code evolution
Trading decision agents TradingAgents, QuantAgent, FinMem trading action, not alpha benchmark

我做 survey 时不是只按论文名分类,而是按 benchmark 相关维度抽取:

Extraction Dimension Why it matters for my proposal
Search unit formula、factor、code、trajectory、trading action 是不同问题
Generator LLM prompting、evolution、MCTS、GFlowNet、multi-agent loop 不可混为一谈
Verifier Qlib backtest、factor metric、real-market PnL、sandbox execution 强度不同
Data / market equity、A-share、crypto、multi-asset 的 claim 不能直接迁移
Cost / fill 是否显式处理交易成本、深度、partial fill、tradability
Multiple testing 是否报告 DSR/PBO/null search,决定结果可信度
Compute control LLM token、candidate count、wall-clock 是否公平
Reproducibility 是否有固定数据、固定 protocol、可复现实验

关键判断:

The claim is not “nobody has done alpha agents.” The claim is that current work does not jointly evaluate executable crypto alpha under cost, fill, statistical, and compute constraints.

中文:

不是说没人做 alpha agent,而是现有工作大多停在公式质量、回测收益或交易决策,还没有把 crypto 可执行性、成本、fill、统计校正和 compute budget 放进同一个 benchmark protocol。

这部分可以加一句更能体现工作量的自我修正:

Review 之后我主动放弃了一个更宽但不稳的 claim:“field has no alpha benchmark”。现在更准确的 claim 是:“field lacks an executable crypto alpha-search benchmark under cost/fill/statistical/compute constraints。”

2.3 Backtest overfitting / statistical rigor review

这一层回答:

为什么 baseline 不能只报 Sharpe、IC 或 MTM?

Review 线:

  • PBO / CSCV。
  • Deflated Sharpe Ratio。
  • Harvey-Liu-Zhu multiple testing。
  • Hou-Xue-Zhang anomaly replication。

对你的影响:

任何 LLM / Optuna / GP / agent search 都是在大规模多重检验。只报 Sharpe 或 IC 不够,必须报告 DSR、PBO、null search baseline。

这部分和你最近项目的连接:

My recent result Statistical interpretation
LightGBM val +44.65 → test -86.87 典型 time-slice instability / overfit warning
Optuna search +44.46 → test -105.78 搜索过程本身产生 multiple testing pressure
M8.6 adaptive gate 是 production screening protocol,但还不是学术显著性证明

一句话:

这轮 statistical review 让我意识到:baseline suite 的目标不是找到最高 PnL,而是测出“搜索方法在多重检验之后还有没有可复现 edge”。

2.4 Review 之后 proposal 发生了什么变化

这页很重要,因为它能显示 review 不是装饰,而是改变了你的判断。

Before review After review
想做一个 self-evolving alpha agent 先做 baseline suite / verifier benchmark
可能 claim “领域没有 benchmark” 改成 “缺 executable crypto alpha benchmark”
重点放 LLM agent architecture 重点放 fixed verifier + comparable baselines
只看 walk-forward MTM 加入 DSR / PBO / null search / compute budget
直接追求复杂 multi-agent 先比较 GP、LLM formula search、minimal agent loop

过渡到第三部分:

所以我现在不想一上来 build a big agent。我想先做一组 baseline,把问题压成一个老师可以判断、审稿人可以复现的实验。


3. 第三部分:下一步不是直接做大 agent,而是先做 baseline suite

时间:5-6 分钟。
目的:把 proposal 从“大 benchmark”压缩成一个老师容易评估的小实验计划。

3.1 Baseline A · Production verifier baseline

名称:

M8.6 Tradability Gate Baseline

输入:

  • 15s OHLCV。
  • spread / depth / best bid-ask notional / sample count。
  • current adaptive state。

输出:

  • symbol 是否可交易。
  • shadow / probation / tradable / cooldown。
  • expected cost-adjusted outcome。

意义:

这是我已有的 hand-engineered production baseline。所有 learning/search baseline 至少要 beat 它,而不是只 beat random。

为什么重要:

  • 它体现真实 execution constraint。
  • 它能区分 paper alpha 和 executable alpha。
  • 它是我相对其他学术团队的独特资产。

3.2 Baseline B · Classical symbolic search baseline

名称:

GP / AlphaGen-style Expression Search

做法:

  • 定义一个小 DSL:returns、volatility、volume、spread、depth、funding、cross-symbol primitives。
  • 用 genetic programming / evolutionary search 生成表达式。
  • 固定 candidate budget。
  • 在同一个 verifier 上评估。

要回答的问题:

在 crypto microstructure setting 下,非 LLM 的 symbolic search 能做到什么水平?

为什么要做:

  • 这是最干净的 non-LLM baseline。
  • 如果 LLM agent 连它都打不过,agent story 会变弱。
  • 如果它表现不错,说明 benchmark 有基本信号。

名称:

LLM Formula Search under Fixed Budget

做法:

  • 给 LLM 固定 primitive list 和表达式语法。
  • 生成 formula alpha。
  • 比较几种 prompting/search:
  • direct generation;
  • Chain-of-Experience;
  • Tree-of-Thought;
  • evolutionary refinement。
  • 强制相同 token budget / candidate budget。

要回答的问题:

AlphaBench-style formula mining 迁移到 crypto executable verifier 后,还能不能保持优势?

为什么要做:

  • 直接对接当前 SOTA。
  • 不需要一开始做复杂 multi-agent。
  • 能快速得到可发表的 baseline table。

3.4 Baseline D · Agentic R&D baseline

名称:

Minimal RD-Agent-style Research Loop

最小版本:

  1. Researcher proposes hypothesis。
  2. Engineer writes formula/code。
  3. Verifier runs walk-forward evaluation。
  4. Analyst summarizes failure and suggests next mutation。

第一版不要做太复杂:

  • 不做完整 autonomous system。
  • 不接 live execution。
  • 不让 agent 改 verifier。
  • 只允许它在 fixed search space 内迭代。

要回答的问题:

在同样 compute budget 下,multi-step agent loop 是否真的比 simple LLM formula search 好?

3.5 Baseline E · Human expert / assisted baseline

名称:

Human Expert vs LLM-assisted vs Autonomous Search

只有在 trader 配合足够时做。

三组:

Track Input Output
Human-only expert watches market / gives rule candidate rule
LLM-assisted expert gives intuition, LLM formalizes formula / code
Autonomous agent sees data only formula / code

要回答的问题:

LLM 最有价值的位置是替代 expert,还是把 expert 的 tacit knowledge 形式化?

这个 baseline 是差异化亮点,但不是 v0 必须完成。


4. 推荐的最小 v0 实验

如果老师问“你下一步具体做什么”,给这个答案。

v0 scope

Universe:

  • BTC / ETH / SOL 或 top-20 Binance USD-M perps。

Frequency:

  • 15s / 1m,先不要 tick。

Period:

  • fixed historical window + untouched chronological holdout。

Baselines:

  1. Random / naive momentum。
  2. M8.6 tradability gate。
  3. GP expression search。
  4. LLM formula search。
  5. Minimal agentic loop。

Metrics:

  • cost-adjusted MTM。
  • hit rate / stop-loss / timeout distribution。
  • turnover / cost sensitivity。
  • DSR。
  • PBO / CSCV if sample size allows。
  • compute budget。

最小目标:

Produce one clean baseline table showing which search method survives the same executable verifier.


5. 推荐 slide structure

这版可以做成 8-10 页,比之前更收束。

# Slide Main claim
1 Title From recent project to baseline suite for crypto alpha search
2 What I recently built I built the verifier side, not just a trading interface
3 Negative result Time-slice stability is the bottleneck
4 What I reviewed AI discovery and financial SOTA point to generator-verifier + benchmark discipline
5 SOTA landscape Existing systems are close, so the claim must be narrower
6 Evaluation principle Alpha search is multiple testing; DSR/PBO/null search must be included
7 Baseline suite A-E baseline options under one verifier
8 Minimal v0 Start with small universe, fixed budget, clean table
9 HKU fit Prof. Li: time-series/statistics; Prof. Han: open-world reliability
10 Ask Which baseline should I prioritize first?

6. 明天汇报的最终 Ask

不要问:

Do you think my whole project is good?

要问:

Among these baseline directions, which one would make the strongest first research artifact?

更具体:

  1. Should I start from M8.6 + GP + LLM formula search as the v0 benchmark table?
  2. Is the agentic loop baseline worth including immediately, or should it be v1?
  3. For Prof. Li: should the first method paper focus on time-slice stability / recurrence prior?
  4. For Prof. Han: is the open-world LLM-agent safety framing credible, or too far from vision/embodied AI?

7. Closing line

I am not trying to claim a finished benchmark tomorrow. I want to start with a small, rigorous baseline suite and use it to decide which alpha-search direction is real.

中文:

我明天不是想 claim 一个完整 benchmark 已经成立,而是想提出一组小而严格的 baseline,用它判断哪些 alpha-search 路线真的值得继续放大。