Skip to content

Crypto-Alpha-Bench · Risk Analysis

Critical examination of the Crypto-Alpha-Bench proposal — what could go wrong, what to mitigate, and what to validate before committing.

2026-05-18 · Paul Weng


0. Why This Document Exists

RESEARCH_PLAN.md makes the case for Crypto-Alpha-Bench. This document is the deliberate counter-perspective — the risks I'd raise if I were the toughest reviewer of my own proposal. Three lenses: (1) academic peer-reviewer, (2) seasoned researcher who's seen benchmarks fail, (3) risk-conscious VC.

If you can't list the failure modes for an ambitious idea, you don't really understand it.


1. Seven Risks · Severity & Mitigation

Risk 1 · 我可能不是这件事的最佳人选(HIGH severity)

问题:为什么是单人 single-developer 做这个 benchmark,而不是 GAIR-NLP / Stanford AI4Finance Lab / DeepMind?他们有现成的 community 影响力、机构 sponsor、跨 paper 协调能力。

Evidence this is real: - AlphaEval (arXiv 2508.13174, 2025-08) 已经是同方向尝试,由 GAIR sister group(北大 ML & DM team)出 - FITEE 2025 LLM-based alpha mining survey 由国内 quant 团队主导 - 这些团队离 Crypto-Alpha-Bench 这一步可能只差几周到几个月

Mitigation: - Lean into unique differentiator:production-grade tradability infrastructure(adaptive state controller、microstructure gate、3-clean-read promotion)。学术团队 6-12 个月复制不出来。这是真护城河 - Speed > polish:v0 越早 ship 越好,占住 framing position - Open from day 1:community contribution model 让潜在竞争者变成 collaborator

Realistic assessment: Partial mitigatable. 学术团队的优势真实存在,但 production verification infrastructure 是我有他们没有。


Risk 2 · Crypto-only 是双刃剑(MEDIUM severity)

问题:金融 ML 学术主流是 US equity / China A-share。Crypto-only benchmark 可能被审稿人当作 "narrow setting"。

典型审稿质疑: - "你方法在 crypto 上 work,怎么证明在 equity 上 work?" - Crypto microstructure 和 equity 显著不同(24/7、无 circuit breaker、funding rate、永续合约 vs spot)

Mitigation options:

Option Pro Con
A · 接受 narrow positioning 窄但深;和 LLM/foundation model 交叉点最 fresh 受 equity 审稿人质疑
B · v0 crypto + v1 加 equity 影响力大;多 venue 适配 成本高,慢一倍
C · 从一开始 multi-asset Ceiling 最高 风险也最高,scope creep

Recommendation: A. Crypto narrow 反而是优势——它是 LLM-driven + foundation model + microstructure intersection 最 fresh 的场景,equity 上学术工具已经成熟。

Mitigation in talk: Slide 22 motivation 里加一句 "I focus on crypto perpetuals not because equity is solved, but because crypto's open-world signature makes it the cleaner testbed for the open questions."


Risk 3 · Verifier 可能已经在过拟合(HIGH severity)

问题 — 这是最 subtle 也最危险的:

我的 adaptive state controller、microstructure gate(5 维)、3-clean-read promotion——这些 design decision 都是基于在 Binance USD-M 数据上观察到的现象做的。它们已经隐式 fit 到 Binance USD-M 的特定 statistical regularities 上。

把它包装成 "standard tradability gate baseline" 后,可能被质疑

"你的 baseline 本身已经 leak 了 benchmark 的 test 信息。你说 microstructure gate 用 5 个 dim 筛选——这些 dim 是怎么 chosen 的?从你做产品时的经验来的,对吧?那它们已经 implicitly 'trained' 在 Binance 历史数据上了。"

这是非常 sharp 的反驳,且不容易回应

Mitigation: - Audit trail discipline:把 microstructure gate 5 dim 和 adaptive state 参数的选择历史全部公开,commit history + design rationale doc - Mandatory sensitivity analysis:benchmark v0 的 protocol 强制要求报告 gate / state controller 的 hyperparameter sensitivity - Held-out future window enforce:v0 用 2022-2024 训 baseline,2025 是 untouched holdout - Acknowledge openly in paper:把这个 risk 当 limitation 写明白,比被审稿人挖出来好

Realistic assessment: Hard to fully mitigate. 真诚 acknowledge + 严格 documentation 是最佳防御。


Risk 4 · Cost model 三档可能 establish 不下来(MEDIUM severity)

问题: - Optimistic / realistic / pessimistic 的具体参数(slippage bps / queue priority / fill probability)没有 ground-truth——是 model 不是事实 - 不同 exchange、不同 time period、不同 symbol 的 cost reality 不同 - 学术 transaction cost analysis 文献(Almgren-Chriss / Hasbrouck)都是 US equity 的,不一定 transfer

Mitigation: - 从真实 fills 数据反推:用 Binance 历史 fills(公开 API)做 empirical calibration - Document the calibration process publicly - 三档之间预留 community PR space:v0 给一组默认值,v1+ 接受 community-contributed cost model variants - Don't over-claim: 明确说 "approximates Binance USD-M conditions, transfer to other venues requires re-calibration"


Risk 5 · Compute-controlled budget 在实践中难 enforce(MEDIUM severity)

问题: - LLM-driven 用 API(token 计量),GP 用本地 CPU(wall-clock 计量),不可比 - 不同硬件 (A100 vs H100 vs M2) 同 GPU-hour 实际算力差几倍 - LLM caching 让 token 计量也不准

学术 benchmark 历史上 MLPerf 做过 compute-controlled,但需要 dedicated team。单人维护做不到 MLPerf 级别

Mitigation: - Wall-clock + 标准化硬件:要求 baseline 在 same hardware spec 下跑(推荐 A100 single GPU) - 报告 token-cost + wall-clock 两个 metric,让 community 选哪个更 fair - 三档 budget tier (small/medium/large):参与者自选,分别排 leaderboard - Accept imperfect: 有比没有强


Risk 6 · 18 个月内可能不够(MEDIUM severity)

问题:NeurIPS Datasets & Benchmarks track 接受率 ~25-30%,每年只一次 deadline:

  • 2026 NeurIPS 截稿 ≈ 5 月(已过)
  • 2027 NeurIPS 截稿 ≈ 5 月
  • 如果 2026-05 才 ship v0,需要 18 个月 commit 这一件事

Mitigation: - 多轨发表 plan:NeurIPS D&B 最优,备选 ICLR Benchmarks / ICML Datasets / AAAI / KDD - Workshop 先发:NeurIPS 2026 Workshop on AI in Finance 发 v0,main track 投 v1 - Methodology paper 平行做:RQ1 (architectural prior) 同期发主流 venue 对冲


Risk 7 · 学术 ↔ Industry 张力(HIGH severity, depends on advisor feedback)

问题:HKU 是学术机构,academic incentive 和 community benchmark 可能不完全一致:

  • 学术评价:NeurIPS / ICLR / Nature paper > GitHub stars > Community adoption
  • Benchmark 真实 impact 在 community adoption + GitHub,paper 只是 byproduct
  • 如果导师推 "先发 method paper,benchmark 之后再说",timeline 被打乱

Mitigation: - 汇报现场直接测试:第三幕 ask 部分明确问 "benchmark vs method paper 优先级"——让两位老师当场给信号 - Plan B 早就备好:fallback 是 "benchmark methodology" 作为 RQ1 method paper 的 evaluation section - 接受方向调整:如果导师强烈倾向 method-first,前 6 个月不应该和导师方向对抗


2. Composite Severity Matrix

Risk Severity Mitigatable? Notes
1 · 不是最佳人选 HIGH Partial 靠 unique infra + speed
2 · Crypto-only narrow Medium Easy 显式 frame
3 · Verifier overfitting HIGH Hard 严格 documentation + acknowledge
4 · Cost model 主观 Medium Medium Empirical calibration + community PR
5 · Compute control 难 Medium Easy Accept imperfect, multi-tier budget
6 · 18 个月不够 Medium Medium 多轨发表 + workshop 先发
7 · 学术↔Industry 张力 HIGH 需要导师 feedback 汇报现场测试

Highest-priority risks: 1 + 3 + 7. 这三个是 benchmark idea 的真 threat,其他都是 manageable。


3. The ETH Validation Experiment(强烈推荐)

在 commit benchmark 之前,先用 1-2 周做一件 conviction 验证实验。

Setup:

用现有的 walk-forward pipeline,在 ETH/USDT 而不是 BTC/USDT 上跑一遍 LightGBM / Optuna 实验。

Hypothesis to test:

"Time-slice stability bottleneck"(val 强 test 弱)是 BTC-specific 现象,还是 crypto microstructure 的普遍特征?

Two possible outcomes:

Outcome Implication
ETH 也 reproduce val→test 反转 Benchmark motivation strengthened——这不是 BTC 偶然,是 crypto microstructure 的结构性问题。Conviction +50%
ETH 上 ML 表现 OK Benchmark motivation 需重新审视——可能 BTC 有 specific 反常因素,需要找出来。Conviction -30%

Cost: 1-2 周(infrastructure 已有,只是换 symbol 重跑)

Value: 远早于汇报得到 conviction 信号;汇报时可以说 "I've validated this phenomenon on 2 independent symbols"。

实施 checklist: - [ ] 确认 ETH/USDT 数据完整性(≥480 unique 15s bar 覆盖 walk-forward 全窗口) - [ ] 跑同样的 LightGBM threshold sweep - [ ] 跑同样的 Optuna 500 trial parameter search - [ ] 报告 val period MTM、test period MTM、chronological consistency - [ ] 如果结果有 nuance(比如 ETH 部分 fold reproduce、部分不),文档化 diagnostic


4. Final Verdict

Do I still recommend the benchmark proposal? Yes — with three conditions.

Condition 1: 先做 ETH validation experiment(risk 3 的部分 hedge)

Condition 2: 汇报时主动 acknowledge risk 1 和 3,不要藏着等审稿人挖出来

Condition 3: Plan B 真正 functional——如果导师 strongly 倾向 method-first,接受调整。RQ1 作为 standalone paper 是合法 fallback

Bottom line:

Crypto-Alpha-Bench is still a high-leverage move. The risks are real but mitigatable. The biggest non-mitigatable variable is faculty feedback at the talk — Han/Li 可能给出超出我预期的方向性调整。Stay open.


5. Next-Action Decision Tree

是否做 ETH validation experiment?
├─ Yes (强烈推荐)
│  ├─ ETH reproduce → conviction up, proceed with benchmark plan
│  └─ ETH 反转 → re-examine benchmark motivation, may pivot to RQ1-only
└─ Skip
   ├─ 风险: 汇报时 conviction 单薄(只有 BTC 一例)
   └─ 唯一合理理由: 时间太紧来不及

汇报后导师反馈:
├─ Benchmark idea 接受
│  ├─ 直接进入 12-week roadmap
│  └─ Risk 1/3/7 全部 mitigate 进 v0 protocol
├─ "Benchmark 太大,先做 method"
│  ├─ Accept, 转 RQ1 standalone
│  └─ Benchmark methodology 作为 RQ1 paper 的 evaluation section
└─ "Benchmark 不是研究 contribution"
   ├─ 罕见,但可能(取决于导师传统)
   └─ Plan C: 完全转 method paper 路线,benchmark idea 后续以 workshop 形式发

6. What I'm NOT Worried About

为了 balance,列一下我没有列入 risk 但其他人可能担心的事,以及为什么我不担心——

  • "Crypto 数据不能公开发布":Binance 历史数据公开 API 可获取,distribution license-friendly。我清洗对齐的版本可以 BSD/MIT/Apache license 发
  • "Benchmark 维护负担":单人 18 个月可以;之后找 sponsor 或 sunset。Imperfect 但 manageable
  • "LLM API 价格让 baseline 不可复现":缓存 + 本地小模型 baseline 兜底;OpenSeeker 范式证明小模型 SFT 可达 frontier 性能
  • "金融领域审稿人保守":Datasets & Benchmarks track 评审更看 protocol 严谨性,不是 finance domain expert dominated

End of risk analysis. Time to think, then decide.