AI 驱动深度搜索 → 量化 Alpha 挖掘:Baseline 论文精读¶
整理时间:2026-05 目标读者:做自动化因子搜索、希望从 AI for Science / Math 的最新范式里挖迁移路径的量化研究员 选篇标准:方法可复用、有公开代码或足够细节复现、近 2 年内的代表作
快速导读¶
| # | 论文 | 年份 | 核心范式 | 对 alpha 搜索的最大启发 |
|---|---|---|---|---|
| 1 | FunSearch (Nature) | 2023 | LLM + 演化 + 程序搜索 | 用代码片段而非符号树作为因子表达 |
| 2 | AlphaProof / AlphaGeometry 2 | 2024 | 神经符号 + RL + 形式验证 | 生成器与验证器解耦,验证流水线决定上限 |
| 3 | AlphaEvolve | 2025 | FunSearch 的工程化升级版 | 长程序 + 多评估器 + 种群多样性管理 |
| 4 | AI Scientist v2 (Sakana) | 2025 | 全流程自主研究 + Agentic Tree Search | 把"假设生成"也自动化,端到端闭环 |
| 5 | ASI-ARCH (AlphaGo Moment) | 2025 | 多智能体架构搜索 + 发现的 scaling law | 因子发现也可以做成 compute-scalable,且经济学先验可注入"Cognition Base" |
| 6 | 金融迁移工作(AlphaAgent / Alpha Jungle / QuantaAlpha) | 2025 | LLM-MCTS / 多 Agent 演化 | 已有的"半成品"参考实现,直接可作 baseline |
1. FunSearch — 用程序搜索做开放式科学发现¶
- 论文:Romera-Paredes et al., Mathematical discoveries from program search with large language models, Nature 2023
- 代码:google-deepmind/funsearch
- 代表成果:在 cap set 问题(数学开放问题)上找到新构造;在 bin packing 上发现新启发式,超过 First Fit Decreasing 等经典算法。
1.1 方法论拆解¶
核心是一个生成-评估-演化的三段式闭环:
- 骨架程序(skeleton):人工写好一个 Python 程序的"壳"——输入、输出、评估方式固定,只留下关键函数
priority(...)由 LLM 演化。这一步把搜索范围严格框死,避免 LLM 跑题。 - 程序数据库 + Islands:维护多个相互隔离的子种群(islands),每个 island 独立演化、定期局部冷启动,防止整体收敛到局部最优。
- Best-shot prompting:从数据库里抽 k 个高分程序,按分数升序排列拼成 few-shot prompt 喂回 LLM,要求生成"更好的一版"。这种排序方式让 LLM 看到"改进梯度",效果明显优于随机抽样。
- 评估器:纯客观、可执行、跑得快。FunSearch 跑了几百万次程序级评估,所以评估必须便宜。
- 后处理:保留的不是黑箱解,而是可读 Python 程序,可以人工解释、提炼出数学结构。
1.2 对 alpha 搜索的迁移路径¶
- 直接对应:把
priority(...)替换成alpha(price, volume, fundamentals, ...) -> cross-sectional score,骨架里写死取数和回测流程。 - 关键改造:
- 评估器从"单点 IC"换成多目标向量(IC、IR、turnover、和存量库的正交残差 IC、子样本稳定性),用 Pareto front 维护种群而不是单标量评分。
- Island 维度可以按"因子类型"分(量价 / 基本面 / 另类数据 / 事件型),强制每个 island 探索不同空间。
- 加一个时序数据穿越检查器作为硬约束,任何生成程序如果触碰未来信息直接淘汰。
- 可复用代码:FunSearch 官方仓库本身是教学性质(评估器是简化版),生产化建议参考 OpenEvolve 或 AlphaEvolve 的开源复现,把分布式评估、检查点、安全沙箱补齐。
- 坑:LLM 容易写出"看起来合理但偷偷穿越"的代码(比如用了未来一周的滚动均值),必须有静态分析 + 时间戳级别的运行时检查双保险。
2. AlphaProof / AlphaGeometry 2 — 神经符号双系统拿 IMO 银牌¶
- 论文:DeepMind, Olympiad-level formal mathematical reasoning with reinforcement learning, Nature 2025(IMO 2024 银牌成绩)
- 关键事实:6 题做对 4 题,包括公认最难的代数题(IMO 现场只有 5 人解出)。
2.1 方法论拆解¶
两套系统分工:
- AlphaProof:处理代数、数论。Gemini 微调 + AlphaZero 式 RL。把题目翻译成 Lean 形式化语言,然后在证明搜索树上做 MCTS,每一步动作是"应用一条策略(tactic)"。Lean 内核充当绝对可信的验证器——只要 Lean 认可,证明就是对的。
- AlphaGeometry 2:处理几何。LLM 提出"辅助线"作为构造性假设,再交给一个符号引擎做演绎闭包,发现矛盾或目标命题就成功。LLM 解决"创造性"部分(哪里画辅助线),符号系统解决"机械性"部分(推完所有蕴含)。
- 训练时自博弈:比赛期间也在跑——LLM 生成原题的变体,自己证明,把成功的证明加回训练集(类似 expert iteration)。
2.2 对 alpha 搜索的迁移路径¶
这一篇给的不是搜索框架,而是架构哲学——生成器和验证器要彻底解耦,且验证器必须"硬"。
- 类比映射:
- LLM / 生成器 → 提出候选因子表达式或假设
- Lean 内核 / 符号引擎 → 多层验证流水线(语法检查 → 数据穿越扫描 → 类型/单位检查 → 样本内 IC → 正交残差 IC → 子样本稳定性 → Deflated Sharpe Ratio)
- MCTS → 在因子组合空间或参数空间做树搜索
- Expert iteration → 把通过验证的因子加回 LLM 的训练或 few-shot 库
- 关键启示:
- 形式化你的因子语言。设计一个像 Lean tactic 一样有类型系统的 DSL,让"频率不匹配""单位混用""未来函数"在编译期就被拒。投入产出比极高,能砍掉 90% 以上的伪候选。
- 验证器的可信度决定一切。如果验证器有 bug 或评分噪声大,整个搜索会被引到错误方向。在金融里这意味着——回测引擎的严格性、统计检验的多重比较校正、Deflated Sharpe 这些不能省。
- MCTS 在因子树上是低垂果实。因子组合(A op B、ts_rank(A, n)、行业内中性化…)天然是树结构,MCTS 比纯遗传搜索更高效,且和 LLM prior 结合自然——参考下文 Alpha Jungle。
- 坑:金融里没有 Lean 那种"绝对正确"的验证器,只有"统计上更可信"。所以验证器输出要从 0/1 改成置信度分布,整个搜索框架要适配"软验证"。
3. AlphaEvolve — FunSearch 的工程化成熟形态¶
- 论文:DeepMind, AlphaEvolve: A coding agent for scientific and algorithmic discovery, arXiv:2506.13131(2025-06)
- 博客:deepmind.google/blog/alphaevolve
- 代表成果:
- 把 4×4 复数矩阵乘法从 Strassen 的 49 次乘法降到 48 次(57 年来首次改进)
- 50+ 数学开放问题中 75% 持平 SOTA、20% 超越 SOTA
- 生产部署:把 Gemini 训练里某个关键 kernel 加速 23%,间接让训练时间降 1%;FlashAttention 内核加速 32.5%
- DeepMind 数据中心调度策略,节省可观算力
3.1 方法论拆解¶
相对 FunSearch 的三个升级:
- 从单函数到长程序:FunSearch 演化几十行的小函数;AlphaEvolve 能演化几百到上千行的完整程序、跨多文件协同修改。
- LLM 组合(ensemble):Gemini 2.0 Flash 做大量"快速变异"(成本低、点子多),Gemini 2.0 Pro 做"精修和方向性突破"(贵但深)。配比和调度有讲究——便宜模型负责广度,贵模型负责关键节点。
- 多目标 + 多评估器:不再是单一标量分数。一个候选可能同时被"速度评估器""数值精度评估器""资源消耗评估器"打分,按 Pareto front 留种。
3.2 对 alpha 搜索的迁移路径¶
AlphaEvolve 是目前最接近开箱即用的范式。
- 直接套用:把"被优化代码"换成因子计算函数 + 组合权重函数,把评估器换成回测流水线。GitHub 上的 OpenEvolve 提供了开源复现,能省掉大量基础设施工作。
- 改造重点:
- Pareto 前沿管理:金融里 IC、turnover、容量、回撤天然冲突,多目标 Pareto 比单目标 Sharpe 更适合。
- 快慢模型分工:用便宜模型(如本地 70B 蒸馏模型)跑大量变异,用 Claude / GPT-4 级别模型做关键节点的"深度修订",成本可以压到能接受的范围。
- 演化长程序的价值:能把"因子计算 + 组合权重 + 风险约束"作为一个整体演化,而不是只演化单因子。这是传统 GP 完全做不到的。
- 可复用模块:
evaluators_database/设计模式可以直接借鉴- 它的 prompt 工程(diff-based prompting,让 LLM 输出 patch 而不是整段代码)能显著降 token 成本
- 坑:AlphaEvolve 论文里 50+ 问题平均跑了几小时到几天,金融数据的回测开销远高于数学题求值,单次实验可能要小时级。评估代价是否能压到分钟级决定了整套范式能不能跑起来。可以考虑:先用一个轻量代理回测器(比如简化版、小样本)做粗筛,再用完整回测做精筛。
4. AI Scientist v2 — 把"研究流程"整个自动化¶
- 论文:Yamada et al., The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search, arXiv:2504.08066(2025-04)
- 代码:SakanaAI/AI-Scientist-v2
- 里程碑:首次出现"全 AI 撰写并通过同行评审"的论文(ICLR 2025 workshop)。
4.1 方法论拆解¶
v2 相对 v1 最重要的变化:抛弃人工代码模板,让一个 Experiment Manager Agent 在树搜索的节点上动态决定"下一步做什么"。
完整研究循环:
- Idea 阶段:LLM 读相关文献 → 生成研究问题 → 用 LLM-as-judge 评分(新颖性、可行性、影响力)
- Experiment 阶段:Agentic Tree Search——树的每个节点是一个"研究状态"(已有代码、已跑实验、已得到的结果),动作是"修改代码 / 跑新实验 / 改变方向 / 回退"。一个 Experiment Manager 决定扩展哪个节点。
- Analysis 阶段:自动可视化、统计检验、生成图表
- Writeup 阶段:自动写论文 LaTeX + 自动同行评审(自我批评 + 多轮修订)
4.2 对 alpha 搜索的迁移路径¶
这是上一轮我说"我最看好"的那条路线的范本。
- 核心借鉴:Agentic Tree Search 在研究流程层级展开。不是只搜因子表达式,而是搜"研究路径"——这条路径上包含:读哪几篇 paper、提什么假设、跑什么实验、看到结果后怎么走。
- alpha 搜索的具体改造:
- Idea 阶段:让 LLM 读最新的学术论文、卖方研报、监管文件、新闻、上市公司公告,提出"市场低效假设"
- Experiment 阶段:Tree Search 的节点是"假设 + 已有的因子实现 + 已有的回测结果"。动作集合:精化假设、新增因子、改变 universe、改变频率、做子样本分析、组合多个因子、回退到祖先节点重新出发
- Analysis 阶段:自动生成因子归因报告——这个因子和哪些已知风格因子相关、在什么 regime 失效、容量上限多大
- 把 LLM-as-judge 改成 finance-as-judge:用 Deflated Sharpe、Probabilistic Sharpe Ratio、对比 benchmark factor zoo 给候选打置信度分
- 工程化要点:
- Tree Search 节点的状态空间很大,需要类似 ASI-ARCH 的"Cognition Base"做经验复用
- 资源调度是关键——一个深层节点可能要跑几小时回测,要有 budget 控制
- 可复用代码:v2 的 tree search 框架、experiment manager 设计、自动可视化都能直接拆出来用。
- 坑:AI Scientist 评测结果显示"产出大量看起来像论文但内容平庸的工作"。在 alpha 上同样会出现"看起来合理的因子但没有真实信号"——必须用比论文 peer review 严得多的统计标准卡。
5. ASI-ARCH — "AlphaGo Moment for Model Architecture Discovery"¶
- 论文:Liu et al., AlphaGo Moment for Model Architecture Discovery, arXiv:2507.18074(2025-07,SII / GAIR-NLP 上海人工智能实验室)
- 代码:GAIR-NLP/ASI-Arch
- 规模:20,000 GPU 小时、1,773 次自主实验、106 个超越人类 baseline(含 Mamba2)的新线性注意力架构
- 为什么叫"AlphaGo Moment":作者论证发现了一个经验性的 Scaling Law for Scientific Discovery——累计 SOTA 架构数 vs 投入算力呈强线性关系。也就是说,科研产出可以被算力直接 scale,第一次有了实证证据。
5.1 方法论拆解¶
ASI-ARCH 是一个闭环多 Agent 框架,本质是 FunSearch / AlphaEvolve 的范式 + 多 Agent 分工 + 学术先验注入:
三个核心 Agent¶
- Researcher:基于历史结果和先验知识提出新架构。内部又拆成 Planner(设计模型)+ Code Checker(语法/类型正确性)+ Deduplication agent(防止和已有架构本质重复)
- Engineer:在真实代码环境里训练和评估。带一个 Debugger agent 能自动诊断和修复训练失败
- Analyst:对每个实验结果做综合解读——和 baseline 比、和历史实验比、提炼出"为什么这次有效/无效"
两个支撑模块¶
- Database:所有实验、代码、结果、insight 的版本化存储
- Cognition Base:从人类论文里抽取的结构化知识(核心思想、设计原则、失败模式)。Researcher 提出新架构前先 query 这个库,相当于把整个学界的先验注入到搜索 prior 里。
两阶段调度¶
- Exploration 阶段(小模型):跑大量小规模实验(百兆参数级),快速过滤
- Verification 阶段(大模型):把 exploration 阶段最有希望的几十个候选放到中等规模(亿级)做真实验证
5.2 关键发现:Scaling Law for Discovery¶
这是论文最重磅的部分——把 cumulative SOTA architectures 对 total GPU hours 画图,得到一条漂亮的线性曲线。含义:
- 科研生产力不再受限于研究员人数
- 只要框架对了,翻倍算力 ≈ 翻倍突破
- 这种线性关系本身就是一个可被进一步研究的现象——为什么不饱和?瓶颈在哪?
5.3 对 alpha 搜索的迁移路径¶
ASI-ARCH 是这一波最值得照搬的范本,因为它和 alpha 搜索的相似度极高:
| ASI-ARCH 组件 | Alpha 搜索对应物 |
|---|---|
| 架构候选(Python 模型定义) | 因子候选(Python 因子函数 + 组合权重) |
| ImageNet/语言建模 benchmark | 历史回测(含 holdout) |
| Cognition Base(架构论文知识库) | 因子学术库(金融学术论文、卖方因子、市场微观结构理论) |
| Researcher Agent | "提出新因子假设"的 Agent |
| Engineer Agent | "把假设变成可回测代码并跑回测"的 Agent |
| Analyst Agent | "归因分析 / 写因子研究报告"的 Agent |
| Exploration → Verification | 简化回测 → 完整回测 → 模拟盘 |
具体改造建议¶
- Cognition Base 是最大杠杆。把过去 30 年的资产定价论文、Barra/Axioma 风险因子文档、各种 anomaly 综述(Hou-Xue-Zhang factor zoo、JKP factor library)结构化进库。Researcher 每次提出因子前必须 ground 到至少一个已知机制。这一步直接砍掉 90% 的过拟合候选。
- 多 Agent 分工值得照搬。在金融里:
- Researcher:读最新论文 + 提因子假设
- Quant Engineer:实现因子 + 跑回测
- Risk Analyst:做归因、解释因子在不同 regime 的行为
- Portfolio Manager Agent:决定这个因子加入组合后的边际贡献和最优权重
- 去重 Agent 极重要。因子去重比架构去重更难,因为两个表达式不同的因子可能在数据上高度相关。需要:
- 表达式层面:AST 标准化 + 哈希
- 行为层面:在 holdout 上算时间序列相关性、横截面 IC 相关性
- 两阶段调度直接搬。粗筛用:单资产小样本、低频、简化回测;精筛用:完整 universe、含交易成本、含约束的组合优化器。
- Scaling Law 假设是否成立要验证。在架构搜索里成立的根本原因是评估器可靠(loss 是真信号)。在金融里如果评估器噪声大,加算力换来的可能不是更多 SOTA 而是更多过拟合。所以先做小规模实验验证 scaling 曲线再 scale,别盲目堆算力。
复现成本¶
- 已有社区复现项目 llm-asi-arch(用 MLX 在 Apple Silicon 跑),框架代码大致可用
- 真正昂贵的不是框架,是Cognition Base 的构建和评估器的工程化
- 工程团队建议:1 个负责框架(2-4 周搭起来)、1 个负责知识库(持续工作)、2 个负责回测和数据基础设施(持续工作)
5.4 局限性与待解¶
- 论文里实验都在线性注意力这个狭窄但定义清晰的领域。金融的"领域定义"模糊得多
- Scaling law 在 1,773 次实验范围内成立,更大规模是否饱和未知
- Cognition Base 的构建质量很大程度上靠人工策划,自动化程度有限
6. 已有的金融领域迁移工作(作为对照 / 起点 baseline)¶
不是核心精读,但作为你们的起点 baseline 一定要看:
6.1 AlphaAgent¶
- 论文:AlphaAgent: LLM-Driven Alpha Mining with Regularized Exploration to Counteract Alpha Decay, arXiv:2502.16789(2025-02)
- 机制:三 Agent 闭环(hypothesis generation → factor construction → evaluation),用三种正则——原创性强制、假设对齐、复杂度控制——专门对抗 alpha decay
- 结果:hit ratio 提升 81%,对 alpha decay 鲁棒性显著
- 价值:是 ASI-ARCH 范式在 alpha 上的"轻量化版本",能直接 fork
6.2 Navigating the Alpha Jungle (LLM-MCTS)¶
- 论文:arXiv:2505.11122(2025-05)
- 机制:把 AlphaProof 的 LLM + MCTS 思路搬到公式型因子搜索上——MCTS 在因子表达式树上扩展节点,LLM 提供节点选择和扩展的 prior,回测做 reward
- 价值:AlphaProof / AlphaZero 范式在金融上最直接的对应实现
6.3 QuantaAlpha¶
- 代码:QuantaAlpha/QuantaAlpha
- 机制:LLM + 演化的自我演化框架,跨 A 股和美股测试都比 baseline 更稳定
- 价值:开源、工程完整度较高,可作起步骨架
6.4 Alpha-GPT / FactorMAD¶
- Alpha-GPT 偏交互式人机协作;FactorMAD 用多 Agent 辩论提升可解释性
- 在我们的方向里更适合作为"产品形态参考"而非"算法核心"
7. 横向对比矩阵¶
| 维度 | FunSearch | AlphaProof | AlphaEvolve | AI Scientist v2 | ASI-ARCH |
|---|---|---|---|---|---|
| 搜索单元 | 单函数(几十行) | 形式证明(tactic 序列) | 长程序(百-千行) | 完整研究流程 | 完整架构定义 + 训练代码 |
| 生成器 | LLM | Gemini + AlphaZero | Gemini Flash + Pro | LLM agent + manager | 多 LLM agent(Researcher/Engineer/Analyst) |
| 验证器 | 客观评估函数 | Lean 内核(绝对可信) | 多评估器 Pareto | LLM-as-judge + 实验 | benchmark loss + analyst 综合 |
| 先验注入 | 骨架代码 | 训练时大量自博弈 | prompt + diff 模板 | 文献检索 | Cognition Base(结构化论文知识) |
| Scaling 行为 | 显著但未明确量化 | 训练期间收敛 | 算力越多解越好 | 树深越大产出越多 | 线性 scaling law |
| 对 alpha 适配难度 | 低 | 中(需软验证器) | 低-中 | 中-高(agent 编排复杂) | 中(最贴近,但 Cognition Base 是大工程) |
| 公开复现 | 官方 + 多个第三方 | 仅论文 | OpenEvolve | 官方完整 | 官方 + MLX 复现 |
| 推荐优先级 | 入门 baseline | 架构哲学参考 | 生产化首选 | 长期目标 | 战略级首选 |
8. 落地路线图建议¶
第 0-1 个月:搭最小可行 baseline¶
- Fork OpenEvolve 或 QuantaAlpha 作起点
- 把生成器换成你们自己的 prompt,把评估器接到你们现有的回测系统
- 目标:能跑通端到端,每天产 10-50 个候选因子并通过基础筛选
第 1-3 个月:把验证流水线做厚¶
借鉴 AlphaProof 的哲学:
- 设计因子 DSL,做类型系统级的非法表达式拦截
- 数据穿越扫描器(静态 + 运行时双层)
- 多重检验校正:Deflated Sharpe、BH-FDR
- 正交残差 IC 评估、子样本稳定性评估
- 这一步如果做扎实,单点效率比换更好的生成器收益大得多
第 3-6 个月:引入 Cognition Base + 多 Agent¶
参考 ASI-ARCH:
- 构建因子学术库(论文 + 卖方研报 + 监管文件 + 公司公告)
- Researcher / Engineer / Analyst 三 Agent 分工
- 两阶段调度(粗筛 → 精筛)
- 去重 Agent(表达式层 + 行为层)
第 6-12 个月:完整研究流程自动化¶
参考 AI Scientist v2:
- 把"提假设"也自动化——LLM 读最新文献和市场数据,主动提研究问题
- Agentic Tree Search 在研究流程层做规划
- 自动生成因子研究报告供人工 review
- 持续验证 scaling law 是否在你们的数据 / 评估器配置下成立
9. 风险清单 / 反模式¶
- 盲目追 LLM 生成器升级:在评估器和数据基础设施没做好之前,换更强的 LLM 收益边际递减很快
- scaling law 直接迁移:金融数据信噪比远低于数学和架构搜索,不要假设线性 scaling 必然成立
- Cognition Base 不更新:因子在被发现的同时就在衰减,知识库要持续吸收最新论文和市场行为
- 多 Agent 编排过度复杂:3-5 个 Agent 已经够,过多反而互相干扰,调试成本爆炸
- 统计检验偷懒:搜索空间一大,假阳性必然多。Deflated Sharpe 不是可选项是必选项
- 忽视产能与拥挤:搜出来的因子真上线时要考虑容量、冲击成本、和市场上其他参与者的相似度
10. 开源小模型路线(OpenSeeker 范式)¶
核心问题:能不能不用每次都调 Claude/GPT-4,用便宜的开源小模型作为主要生成器?
10.1 OpenSeeker 的方法论要点¶
- 论文:OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data, arXiv:2603.15594
- v2:OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories, arXiv:2605.04036
- 代码:rui-ye/OpenSeeker(同 ASI-ARCH 出自 GAIR)
最颠覆性的结论:v1 用 11.7k 合成样本 + 简单 SFT,在 BrowseComp 上 29.5% vs DeepDive 15.3%;BrowseComp-ZH 上 48.4%,超过通义 DeepResearch 的 46.7%(后者用 CPT+SFT+RL 重训)。
三个关键技术:
- Fact-grounded scalable controllable QA synthesis:从已知答案反向构造,沿 web graph 做多跳扩展和实体混淆,保证生成的训练样本"可验证、难度可控、覆盖度可控"。
- Denoised trajectory synthesis:用回顾性总结机制压缩失败探索、保留有信息量的步骤、显式标注转折点。轨迹质量比数量重要得多。
- 简单 SFT 即可达到 RL pipeline 的效果,前提是数据质量够高。
10.2 对 alpha 搜索的迁移路径¶
训一个专用的"因子研究员"小模型¶
- 底座:Qwen3-14B、DeepSeek-V3-Coder-Lite、Llama 4 Mini 量级,本地推理快
- 训练数据:合成因子研究轨迹——从已知有效因子(动量、low vol、accruals 等公开 anomaly)反向构造完整的"研究员从零推导出此因子"轨迹,包含读哪些论文、提了什么假设、做了哪些实验、被什么结果说服、最终落到表达式
- 数据规模:参考 OpenSeeker,1-5 万条高质量轨迹应该够
- 训练成本:几百到几千美元(数据合成是大头,SFT 本身便宜)
推理阶段的成本结构¶
| 角色 | 推荐模型 | 单次调用成本 | 频次 |
|---|---|---|---|
| Researcher(生成因子候选) | Qwen3-14B / 自研 SFT 模型 | ~$0.0001 | 高频(每天几万次) |
| Code Checker(语法/穿越扫描) | 3-7B 小模型 | ~$0.00001 | 高频 |
| Analyst(因子归因报告) | Claude / Gemini Pro | ~$0.05 | 中频(每天几百次) |
| Meta-judge(升级通道) | Claude Opus / GPT-4 | ~$0.20 | 低频(每天几十次) |
整体把每个候选因子的 LLM 成本从几美分降到几厘以下,搜索空间可以放大 10-100 倍。
轨迹去噪是被低估的一环¶
你们现在跑搜索时积累的所有失败实验别扔:
- 用大模型做事后总结:"这次失败的根因是 X""这个分支的关键洞察是 Y"
- 标注过的轨迹反过来喂给小模型 SFT
- 时间一长,小模型的因子直觉会逼近你们组里最资深研究员的水平
- 这是一种"组织知识"自动化的形式,对人员流动是天然的对冲
10.3 工程化要点¶
- 本地推理基础设施:vLLM / SGLang 集群跑量化版本,吞吐能到每秒几十到几百个候选
- 数据合成是一次性投入:用 Claude/GPT-4 跑一次生成 50k 训练样本,之后所有推理都用小模型
- 持续 SFT:每月用过去一个月的真实搜索轨迹(去噪过)增量训练,让小模型与时俱进
- 冷启动:第一版小模型质量不够时,让大模型兜底;随着数据积累逐步提升小模型比例
11. 把框架做得更 Meta——分层路线图¶
核心问题:ASI-ARCH 已经够 meta 了,再上一层是什么?
ASI-ARCH 是"固定框架,搜对象"。再上一层,是让框架本身也成为可演化对象。学术界目前在这个方向还很早期,但层级已经清晰:
层级 0:搜对象本身(ASI-ARCH 现在的位置)¶
人写好 agent 拓扑、prompt、评估流水线,搜的是因子表达式。这是工业界目前的天花板,也是你们应该先打满的层级。
层级 1:搜搜索策略(meta-search over search policy)¶
不固定"Researcher 先 query Cognition Base 再提假设"这种流程,把 agent 之间的协作图也作为可演化对象。
- 用 DAG 表达 agent 调用拓扑(参考 AutoMR),节点是"提假设""查文献""跑回测""归因""去重"等原子能力
- 外层演化器搜:在什么阶段插入"风险归因"节点最有效?"提假设"前是否应该先做"市场 regime 识别"?不同流程在哪些 regime 下表现差异大?
- 元目标:同样算力预算下,不同协作图最终产出的因子库 IR 谁更高
- 评估贵(要跑完内层才能评外层),适合 BOHB / Hyperband 这种带早停的 HPO
- ROI 评估:高,建议在层级 0 跑稳后立刻开始
层级 2:搜评估器本身(meta-evaluation)¶
最有价值也最容易翻车的一层。
- 因子评估指标是开放问题——IC / IR / Sharpe / turnover / capacity / 正交性怎么加权没有标准答案
- 把"评估器"也作为可演化对象:权重向量、或一个小评分网络
- 元目标:这套评估器选出的因子,3 个月后在严格 OOS 上的表现
- 思想脉络对应 Meta-Rewarding——judge 之上再加 meta-judge,评估"判断本身"
- 风险:极易陷入 Goodhart 陷阱。必须有不受演化触及的最终 holdout,且演化周期至少季度级
- ROI 评估:中-高,谨慎尝试
层级 3:搜 DSL(meta-DSL learning)¶
让系统自己提议新的原子算子。
- 自动从已有因子库 mining 高频子结构(参考 AlphaEvolve 把成功代码片段提炼成函数)
- 例如"过去 N 天成交量加权平均价"经常出现 → 自动提升为一级算子
- 工程上对应一个"算子库管理 agent",定期审视、提议、由元评估器决定是否纳入
- ROI 评估:中,等层级 1 和 2 稳定后再做
层级 4:搜框架本身(self-improving framework)¶
最 meta 的层——系统观察自己跑了一段时间后的整体产出,主动改写自己的代码(改 Cognition Base 结构、改 agent prompt、改回测器)。
- 学术界还没有真正跑通的工业级案例
- 极易演化出"自定义指标分数很高但实际没价值"的怪胎(Goodhart 的极致版本)
- ROI 评估:低,1-2 年内不建议碰
11.1 元层级实施优先级¶
| 层级 | 何时做 | 风险 | 预期增量 |
|---|---|---|---|
| 0 | 立刻 | 低 | baseline,必须打满 |
| 1 | 层级 0 稳定 3-6 个月后 | 低-中 | 显著(agent 流程优化收益大) |
| 2 | 有 1 年以上 OOS 数据沉淀后 | 高 | 显著但易翻车 |
| 3 | 层级 1 和 2 稳定后 | 中 | 中等 |
| 4 | 不建议 | 极高 | 不可预测 |
参考链接汇总¶
- ASI-ARCH 论文:https://arxiv.org/abs/2507.18074
- ASI-ARCH 代码:https://github.com/GAIR-NLP/ASI-Arch
- AlphaEvolve 博客:https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
- AlphaEvolve 论文:https://arxiv.org/abs/2506.13131
- FunSearch (Nature):https://www.nature.com/articles/s41586-023-06924-6
- FunSearch 代码:https://github.com/google-deepmind/funsearch
- AlphaProof / AlphaGeometry 2 (Nature):https://www.nature.com/articles/s41586-025-09833-y
- AI Scientist v2 论文:https://arxiv.org/abs/2504.08066
- AI Scientist v2 代码:https://github.com/sakanaai/ai-scientist-v2
- AlphaAgent:https://arxiv.org/abs/2502.16789
- Alpha Jungle (LLM-MCTS):https://arxiv.org/abs/2505.11122
- QuantaAlpha:https://github.com/QuantaAlpha/QuantaAlpha
- OpenEvolve(AlphaEvolve 开源复现):https://huggingface.co/blog/codelion/openevolve
- OpenSeeker:https://arxiv.org/abs/2603.15594
- OpenSeeker-v2:https://arxiv.org/html/2605.04036
- OpenSeeker 代码:https://github.com/rui-ye/OpenSeeker
- AutoMR (Meta Reasoning Skeleton):https://openreview.net/forum?id=sh94I12rRJ
- Meta-Rewarding Language Models:https://arxiv.org/abs/2407.19594