Skip to content

AI 驱动深度搜索 → 量化 Alpha 挖掘:Baseline 论文精读

整理时间:2026-05 目标读者:做自动化因子搜索、希望从 AI for Science / Math 的最新范式里挖迁移路径的量化研究员 选篇标准:方法可复用、有公开代码或足够细节复现、近 2 年内的代表作


快速导读

# 论文 年份 核心范式 对 alpha 搜索的最大启发
1 FunSearch (Nature) 2023 LLM + 演化 + 程序搜索 用代码片段而非符号树作为因子表达
2 AlphaProof / AlphaGeometry 2 2024 神经符号 + RL + 形式验证 生成器与验证器解耦,验证流水线决定上限
3 AlphaEvolve 2025 FunSearch 的工程化升级版 长程序 + 多评估器 + 种群多样性管理
4 AI Scientist v2 (Sakana) 2025 全流程自主研究 + Agentic Tree Search 把"假设生成"也自动化,端到端闭环
5 ASI-ARCH (AlphaGo Moment) 2025 多智能体架构搜索 + 发现的 scaling law 因子发现也可以做成 compute-scalable,且经济学先验可注入"Cognition Base"
6 金融迁移工作(AlphaAgent / Alpha Jungle / QuantaAlpha) 2025 LLM-MCTS / 多 Agent 演化 已有的"半成品"参考实现,直接可作 baseline

1. FunSearch — 用程序搜索做开放式科学发现

  • 论文:Romera-Paredes et al., Mathematical discoveries from program search with large language models, Nature 2023
  • 代码google-deepmind/funsearch
  • 代表成果:在 cap set 问题(数学开放问题)上找到新构造;在 bin packing 上发现新启发式,超过 First Fit Decreasing 等经典算法。

1.1 方法论拆解

核心是一个生成-评估-演化的三段式闭环:

  1. 骨架程序(skeleton):人工写好一个 Python 程序的"壳"——输入、输出、评估方式固定,只留下关键函数 priority(...) 由 LLM 演化。这一步把搜索范围严格框死,避免 LLM 跑题。
  2. 程序数据库 + Islands:维护多个相互隔离的子种群(islands),每个 island 独立演化、定期局部冷启动,防止整体收敛到局部最优。
  3. Best-shot prompting:从数据库里抽 k 个高分程序,按分数升序排列拼成 few-shot prompt 喂回 LLM,要求生成"更好的一版"。这种排序方式让 LLM 看到"改进梯度",效果明显优于随机抽样。
  4. 评估器:纯客观、可执行、跑得快。FunSearch 跑了几百万次程序级评估,所以评估必须便宜。
  5. 后处理:保留的不是黑箱解,而是可读 Python 程序,可以人工解释、提炼出数学结构。

1.2 对 alpha 搜索的迁移路径

  • 直接对应:把 priority(...) 替换成 alpha(price, volume, fundamentals, ...) -> cross-sectional score,骨架里写死取数和回测流程。
  • 关键改造
  • 评估器从"单点 IC"换成多目标向量(IC、IR、turnover、和存量库的正交残差 IC、子样本稳定性),用 Pareto front 维护种群而不是单标量评分。
  • Island 维度可以按"因子类型"分(量价 / 基本面 / 另类数据 / 事件型),强制每个 island 探索不同空间。
  • 加一个时序数据穿越检查器作为硬约束,任何生成程序如果触碰未来信息直接淘汰。
  • 可复用代码:FunSearch 官方仓库本身是教学性质(评估器是简化版),生产化建议参考 OpenEvolve 或 AlphaEvolve 的开源复现,把分布式评估、检查点、安全沙箱补齐。
  • :LLM 容易写出"看起来合理但偷偷穿越"的代码(比如用了未来一周的滚动均值),必须有静态分析 + 时间戳级别的运行时检查双保险。

2. AlphaProof / AlphaGeometry 2 — 神经符号双系统拿 IMO 银牌

  • 论文:DeepMind, Olympiad-level formal mathematical reasoning with reinforcement learning, Nature 2025(IMO 2024 银牌成绩)
  • 关键事实:6 题做对 4 题,包括公认最难的代数题(IMO 现场只有 5 人解出)。

2.1 方法论拆解

两套系统分工:

  • AlphaProof:处理代数、数论。Gemini 微调 + AlphaZero 式 RL。把题目翻译成 Lean 形式化语言,然后在证明搜索树上做 MCTS,每一步动作是"应用一条策略(tactic)"。Lean 内核充当绝对可信的验证器——只要 Lean 认可,证明就是对的。
  • AlphaGeometry 2:处理几何。LLM 提出"辅助线"作为构造性假设,再交给一个符号引擎做演绎闭包,发现矛盾或目标命题就成功。LLM 解决"创造性"部分(哪里画辅助线),符号系统解决"机械性"部分(推完所有蕴含)。
  • 训练时自博弈:比赛期间也在跑——LLM 生成原题的变体,自己证明,把成功的证明加回训练集(类似 expert iteration)。

2.2 对 alpha 搜索的迁移路径

这一篇给的不是搜索框架,而是架构哲学——生成器和验证器要彻底解耦,且验证器必须"硬"。

  • 类比映射
  • LLM / 生成器 → 提出候选因子表达式或假设
  • Lean 内核 / 符号引擎 → 多层验证流水线(语法检查 → 数据穿越扫描 → 类型/单位检查 → 样本内 IC → 正交残差 IC → 子样本稳定性 → Deflated Sharpe Ratio)
  • MCTS → 在因子组合空间或参数空间做树搜索
  • Expert iteration → 把通过验证的因子加回 LLM 的训练或 few-shot 库
  • 关键启示
  • 形式化你的因子语言。设计一个像 Lean tactic 一样有类型系统的 DSL,让"频率不匹配""单位混用""未来函数"在编译期就被拒。投入产出比极高,能砍掉 90% 以上的伪候选。
  • 验证器的可信度决定一切。如果验证器有 bug 或评分噪声大,整个搜索会被引到错误方向。在金融里这意味着——回测引擎的严格性、统计检验的多重比较校正、Deflated Sharpe 这些不能省。
  • MCTS 在因子树上是低垂果实。因子组合(A op B、ts_rank(A, n)、行业内中性化…)天然是树结构,MCTS 比纯遗传搜索更高效,且和 LLM prior 结合自然——参考下文 Alpha Jungle
  • :金融里没有 Lean 那种"绝对正确"的验证器,只有"统计上更可信"。所以验证器输出要从 0/1 改成置信度分布,整个搜索框架要适配"软验证"。

3. AlphaEvolve — FunSearch 的工程化成熟形态

  • 论文:DeepMind, AlphaEvolve: A coding agent for scientific and algorithmic discovery, arXiv:2506.13131(2025-06)
  • 博客deepmind.google/blog/alphaevolve
  • 代表成果
  • 把 4×4 复数矩阵乘法从 Strassen 的 49 次乘法降到 48 次(57 年来首次改进)
  • 50+ 数学开放问题中 75% 持平 SOTA、20% 超越 SOTA
  • 生产部署:把 Gemini 训练里某个关键 kernel 加速 23%,间接让训练时间降 1%;FlashAttention 内核加速 32.5%
  • DeepMind 数据中心调度策略,节省可观算力

3.1 方法论拆解

相对 FunSearch 的三个升级:

  1. 从单函数到长程序:FunSearch 演化几十行的小函数;AlphaEvolve 能演化几百到上千行的完整程序、跨多文件协同修改。
  2. LLM 组合(ensemble):Gemini 2.0 Flash 做大量"快速变异"(成本低、点子多),Gemini 2.0 Pro 做"精修和方向性突破"(贵但深)。配比和调度有讲究——便宜模型负责广度,贵模型负责关键节点。
  3. 多目标 + 多评估器:不再是单一标量分数。一个候选可能同时被"速度评估器""数值精度评估器""资源消耗评估器"打分,按 Pareto front 留种。

3.2 对 alpha 搜索的迁移路径

AlphaEvolve 是目前最接近开箱即用的范式

  • 直接套用:把"被优化代码"换成因子计算函数 + 组合权重函数,把评估器换成回测流水线。GitHub 上的 OpenEvolve 提供了开源复现,能省掉大量基础设施工作。
  • 改造重点
  • Pareto 前沿管理:金融里 IC、turnover、容量、回撤天然冲突,多目标 Pareto 比单目标 Sharpe 更适合。
  • 快慢模型分工:用便宜模型(如本地 70B 蒸馏模型)跑大量变异,用 Claude / GPT-4 级别模型做关键节点的"深度修订",成本可以压到能接受的范围。
  • 演化长程序的价值:能把"因子计算 + 组合权重 + 风险约束"作为一个整体演化,而不是只演化单因子。这是传统 GP 完全做不到的。
  • 可复用模块
  • evaluators_database/ 设计模式可以直接借鉴
  • 它的 prompt 工程(diff-based prompting,让 LLM 输出 patch 而不是整段代码)能显著降 token 成本
  • :AlphaEvolve 论文里 50+ 问题平均跑了几小时到几天,金融数据的回测开销远高于数学题求值,单次实验可能要小时级。评估代价是否能压到分钟级决定了整套范式能不能跑起来。可以考虑:先用一个轻量代理回测器(比如简化版、小样本)做粗筛,再用完整回测做精筛。

4. AI Scientist v2 — 把"研究流程"整个自动化

  • 论文:Yamada et al., The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search, arXiv:2504.08066(2025-04)
  • 代码SakanaAI/AI-Scientist-v2
  • 里程碑:首次出现"全 AI 撰写并通过同行评审"的论文(ICLR 2025 workshop)。

4.1 方法论拆解

v2 相对 v1 最重要的变化:抛弃人工代码模板,让一个 Experiment Manager Agent 在树搜索的节点上动态决定"下一步做什么"。

完整研究循环:

  1. Idea 阶段:LLM 读相关文献 → 生成研究问题 → 用 LLM-as-judge 评分(新颖性、可行性、影响力)
  2. Experiment 阶段:Agentic Tree Search——树的每个节点是一个"研究状态"(已有代码、已跑实验、已得到的结果),动作是"修改代码 / 跑新实验 / 改变方向 / 回退"。一个 Experiment Manager 决定扩展哪个节点。
  3. Analysis 阶段:自动可视化、统计检验、生成图表
  4. Writeup 阶段:自动写论文 LaTeX + 自动同行评审(自我批评 + 多轮修订)

4.2 对 alpha 搜索的迁移路径

这是上一轮我说"我最看好"的那条路线的范本。

  • 核心借鉴Agentic Tree Search 在研究流程层级展开。不是只搜因子表达式,而是搜"研究路径"——这条路径上包含:读哪几篇 paper、提什么假设、跑什么实验、看到结果后怎么走。
  • alpha 搜索的具体改造
  • Idea 阶段:让 LLM 读最新的学术论文、卖方研报、监管文件、新闻、上市公司公告,提出"市场低效假设"
  • Experiment 阶段:Tree Search 的节点是"假设 + 已有的因子实现 + 已有的回测结果"。动作集合:精化假设、新增因子、改变 universe、改变频率、做子样本分析、组合多个因子、回退到祖先节点重新出发
  • Analysis 阶段:自动生成因子归因报告——这个因子和哪些已知风格因子相关、在什么 regime 失效、容量上限多大
  • 把 LLM-as-judge 改成 finance-as-judge:用 Deflated Sharpe、Probabilistic Sharpe Ratio、对比 benchmark factor zoo 给候选打置信度分
  • 工程化要点
  • Tree Search 节点的状态空间很大,需要类似 ASI-ARCH 的"Cognition Base"做经验复用
  • 资源调度是关键——一个深层节点可能要跑几小时回测,要有 budget 控制
  • 可复用代码:v2 的 tree search 框架、experiment manager 设计、自动可视化都能直接拆出来用。
  • :AI Scientist 评测结果显示"产出大量看起来像论文但内容平庸的工作"。在 alpha 上同样会出现"看起来合理的因子但没有真实信号"——必须用比论文 peer review 严得多的统计标准卡。

5. ASI-ARCH — "AlphaGo Moment for Model Architecture Discovery"

  • 论文:Liu et al., AlphaGo Moment for Model Architecture Discovery, arXiv:2507.18074(2025-07,SII / GAIR-NLP 上海人工智能实验室)
  • 代码GAIR-NLP/ASI-Arch
  • 规模:20,000 GPU 小时、1,773 次自主实验、106 个超越人类 baseline(含 Mamba2)的新线性注意力架构
  • 为什么叫"AlphaGo Moment":作者论证发现了一个经验性的 Scaling Law for Scientific Discovery——累计 SOTA 架构数 vs 投入算力呈强线性关系。也就是说,科研产出可以被算力直接 scale,第一次有了实证证据。

5.1 方法论拆解

ASI-ARCH 是一个闭环多 Agent 框架,本质是 FunSearch / AlphaEvolve 的范式 + 多 Agent 分工 + 学术先验注入:

三个核心 Agent

  • Researcher:基于历史结果和先验知识提出新架构。内部又拆成 Planner(设计模型)+ Code Checker(语法/类型正确性)+ Deduplication agent(防止和已有架构本质重复)
  • Engineer:在真实代码环境里训练和评估。带一个 Debugger agent 能自动诊断和修复训练失败
  • Analyst:对每个实验结果做综合解读——和 baseline 比、和历史实验比、提炼出"为什么这次有效/无效"

两个支撑模块

  • Database:所有实验、代码、结果、insight 的版本化存储
  • Cognition Base:从人类论文里抽取的结构化知识(核心思想、设计原则、失败模式)。Researcher 提出新架构前先 query 这个库,相当于把整个学界的先验注入到搜索 prior 里。

两阶段调度

  • Exploration 阶段(小模型):跑大量小规模实验(百兆参数级),快速过滤
  • Verification 阶段(大模型):把 exploration 阶段最有希望的几十个候选放到中等规模(亿级)做真实验证

5.2 关键发现:Scaling Law for Discovery

这是论文最重磅的部分——把 cumulative SOTA architecturestotal GPU hours 画图,得到一条漂亮的线性曲线。含义:

  • 科研生产力不再受限于研究员人数
  • 只要框架对了,翻倍算力 ≈ 翻倍突破
  • 这种线性关系本身就是一个可被进一步研究的现象——为什么不饱和?瓶颈在哪?

5.3 对 alpha 搜索的迁移路径

ASI-ARCH 是这一波最值得照搬的范本,因为它和 alpha 搜索的相似度极高:

ASI-ARCH 组件 Alpha 搜索对应物
架构候选(Python 模型定义) 因子候选(Python 因子函数 + 组合权重)
ImageNet/语言建模 benchmark 历史回测(含 holdout)
Cognition Base(架构论文知识库) 因子学术库(金融学术论文、卖方因子、市场微观结构理论)
Researcher Agent "提出新因子假设"的 Agent
Engineer Agent "把假设变成可回测代码并跑回测"的 Agent
Analyst Agent "归因分析 / 写因子研究报告"的 Agent
Exploration → Verification 简化回测 → 完整回测 → 模拟盘

具体改造建议

  1. Cognition Base 是最大杠杆。把过去 30 年的资产定价论文、Barra/Axioma 风险因子文档、各种 anomaly 综述(Hou-Xue-Zhang factor zoo、JKP factor library)结构化进库。Researcher 每次提出因子前必须 ground 到至少一个已知机制。这一步直接砍掉 90% 的过拟合候选
  2. 多 Agent 分工值得照搬。在金融里:
  3. Researcher:读最新论文 + 提因子假设
  4. Quant Engineer:实现因子 + 跑回测
  5. Risk Analyst:做归因、解释因子在不同 regime 的行为
  6. Portfolio Manager Agent:决定这个因子加入组合后的边际贡献和最优权重
  7. 去重 Agent 极重要。因子去重比架构去重更难,因为两个表达式不同的因子可能在数据上高度相关。需要:
  8. 表达式层面:AST 标准化 + 哈希
  9. 行为层面:在 holdout 上算时间序列相关性、横截面 IC 相关性
  10. 两阶段调度直接搬。粗筛用:单资产小样本、低频、简化回测;精筛用:完整 universe、含交易成本、含约束的组合优化器。
  11. Scaling Law 假设是否成立要验证。在架构搜索里成立的根本原因是评估器可靠(loss 是真信号)。在金融里如果评估器噪声大,加算力换来的可能不是更多 SOTA 而是更多过拟合。所以先做小规模实验验证 scaling 曲线再 scale,别盲目堆算力。

复现成本

  • 已有社区复现项目 llm-asi-arch(用 MLX 在 Apple Silicon 跑),框架代码大致可用
  • 真正昂贵的不是框架,是Cognition Base 的构建评估器的工程化
  • 工程团队建议:1 个负责框架(2-4 周搭起来)、1 个负责知识库(持续工作)、2 个负责回测和数据基础设施(持续工作)

5.4 局限性与待解

  • 论文里实验都在线性注意力这个狭窄但定义清晰的领域。金融的"领域定义"模糊得多
  • Scaling law 在 1,773 次实验范围内成立,更大规模是否饱和未知
  • Cognition Base 的构建质量很大程度上靠人工策划,自动化程度有限

6. 已有的金融领域迁移工作(作为对照 / 起点 baseline)

不是核心精读,但作为你们的起点 baseline 一定要看:

6.1 AlphaAgent

  • 论文AlphaAgent: LLM-Driven Alpha Mining with Regularized Exploration to Counteract Alpha Decay, arXiv:2502.16789(2025-02)
  • 机制:三 Agent 闭环(hypothesis generation → factor construction → evaluation),用三种正则——原创性强制、假设对齐、复杂度控制——专门对抗 alpha decay
  • 结果:hit ratio 提升 81%,对 alpha decay 鲁棒性显著
  • 价值:是 ASI-ARCH 范式在 alpha 上的"轻量化版本",能直接 fork

6.2 Navigating the Alpha Jungle (LLM-MCTS)

  • 论文:arXiv:2505.11122(2025-05)
  • 机制:把 AlphaProof 的 LLM + MCTS 思路搬到公式型因子搜索上——MCTS 在因子表达式树上扩展节点,LLM 提供节点选择和扩展的 prior,回测做 reward
  • 价值:AlphaProof / AlphaZero 范式在金融上最直接的对应实现

6.3 QuantaAlpha

  • 代码QuantaAlpha/QuantaAlpha
  • 机制:LLM + 演化的自我演化框架,跨 A 股和美股测试都比 baseline 更稳定
  • 价值:开源、工程完整度较高,可作起步骨架

6.4 Alpha-GPT / FactorMAD

  • Alpha-GPT 偏交互式人机协作;FactorMAD 用多 Agent 辩论提升可解释性
  • 在我们的方向里更适合作为"产品形态参考"而非"算法核心"

7. 横向对比矩阵

维度 FunSearch AlphaProof AlphaEvolve AI Scientist v2 ASI-ARCH
搜索单元 单函数(几十行) 形式证明(tactic 序列) 长程序(百-千行) 完整研究流程 完整架构定义 + 训练代码
生成器 LLM Gemini + AlphaZero Gemini Flash + Pro LLM agent + manager 多 LLM agent(Researcher/Engineer/Analyst)
验证器 客观评估函数 Lean 内核(绝对可信) 多评估器 Pareto LLM-as-judge + 实验 benchmark loss + analyst 综合
先验注入 骨架代码 训练时大量自博弈 prompt + diff 模板 文献检索 Cognition Base(结构化论文知识)
Scaling 行为 显著但未明确量化 训练期间收敛 算力越多解越好 树深越大产出越多 线性 scaling law
对 alpha 适配难度 中(需软验证器) 低-中 中-高(agent 编排复杂) 中(最贴近,但 Cognition Base 是大工程)
公开复现 官方 + 多个第三方 仅论文 OpenEvolve 官方完整 官方 + MLX 复现
推荐优先级 入门 baseline 架构哲学参考 生产化首选 长期目标 战略级首选

8. 落地路线图建议

第 0-1 个月:搭最小可行 baseline

  • Fork OpenEvolve 或 QuantaAlpha 作起点
  • 把生成器换成你们自己的 prompt,把评估器接到你们现有的回测系统
  • 目标:能跑通端到端,每天产 10-50 个候选因子并通过基础筛选

第 1-3 个月:把验证流水线做厚

借鉴 AlphaProof 的哲学:

  • 设计因子 DSL,做类型系统级的非法表达式拦截
  • 数据穿越扫描器(静态 + 运行时双层)
  • 多重检验校正:Deflated Sharpe、BH-FDR
  • 正交残差 IC 评估、子样本稳定性评估
  • 这一步如果做扎实,单点效率比换更好的生成器收益大得多

第 3-6 个月:引入 Cognition Base + 多 Agent

参考 ASI-ARCH:

  • 构建因子学术库(论文 + 卖方研报 + 监管文件 + 公司公告)
  • Researcher / Engineer / Analyst 三 Agent 分工
  • 两阶段调度(粗筛 → 精筛)
  • 去重 Agent(表达式层 + 行为层)

第 6-12 个月:完整研究流程自动化

参考 AI Scientist v2:

  • 把"提假设"也自动化——LLM 读最新文献和市场数据,主动提研究问题
  • Agentic Tree Search 在研究流程层做规划
  • 自动生成因子研究报告供人工 review
  • 持续验证 scaling law 是否在你们的数据 / 评估器配置下成立

9. 风险清单 / 反模式

  1. 盲目追 LLM 生成器升级:在评估器和数据基础设施没做好之前,换更强的 LLM 收益边际递减很快
  2. scaling law 直接迁移:金融数据信噪比远低于数学和架构搜索,不要假设线性 scaling 必然成立
  3. Cognition Base 不更新:因子在被发现的同时就在衰减,知识库要持续吸收最新论文和市场行为
  4. 多 Agent 编排过度复杂:3-5 个 Agent 已经够,过多反而互相干扰,调试成本爆炸
  5. 统计检验偷懒:搜索空间一大,假阳性必然多。Deflated Sharpe 不是可选项是必选项
  6. 忽视产能与拥挤:搜出来的因子真上线时要考虑容量、冲击成本、和市场上其他参与者的相似度

10. 开源小模型路线(OpenSeeker 范式)

核心问题:能不能不用每次都调 Claude/GPT-4,用便宜的开源小模型作为主要生成器?

10.1 OpenSeeker 的方法论要点

  • 论文OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data, arXiv:2603.15594
  • v2OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories, arXiv:2605.04036
  • 代码rui-ye/OpenSeeker(同 ASI-ARCH 出自 GAIR)

最颠覆性的结论:v1 用 11.7k 合成样本 + 简单 SFT,在 BrowseComp 上 29.5% vs DeepDive 15.3%;BrowseComp-ZH 上 48.4%,超过通义 DeepResearch 的 46.7%(后者用 CPT+SFT+RL 重训)。

三个关键技术:

  1. Fact-grounded scalable controllable QA synthesis:从已知答案反向构造,沿 web graph 做多跳扩展和实体混淆,保证生成的训练样本"可验证、难度可控、覆盖度可控"。
  2. Denoised trajectory synthesis:用回顾性总结机制压缩失败探索、保留有信息量的步骤、显式标注转折点。轨迹质量比数量重要得多。
  3. 简单 SFT 即可达到 RL pipeline 的效果,前提是数据质量够高。

10.2 对 alpha 搜索的迁移路径

训一个专用的"因子研究员"小模型

  • 底座:Qwen3-14B、DeepSeek-V3-Coder-Lite、Llama 4 Mini 量级,本地推理快
  • 训练数据:合成因子研究轨迹——从已知有效因子(动量、low vol、accruals 等公开 anomaly)反向构造完整的"研究员从零推导出此因子"轨迹,包含读哪些论文、提了什么假设、做了哪些实验、被什么结果说服、最终落到表达式
  • 数据规模:参考 OpenSeeker,1-5 万条高质量轨迹应该够
  • 训练成本:几百到几千美元(数据合成是大头,SFT 本身便宜)

推理阶段的成本结构

角色 推荐模型 单次调用成本 频次
Researcher(生成因子候选) Qwen3-14B / 自研 SFT 模型 ~$0.0001 高频(每天几万次)
Code Checker(语法/穿越扫描) 3-7B 小模型 ~$0.00001 高频
Analyst(因子归因报告) Claude / Gemini Pro ~$0.05 中频(每天几百次)
Meta-judge(升级通道) Claude Opus / GPT-4 ~$0.20 低频(每天几十次)

整体把每个候选因子的 LLM 成本从几美分降到几厘以下,搜索空间可以放大 10-100 倍。

轨迹去噪是被低估的一环

你们现在跑搜索时积累的所有失败实验别扔

  • 用大模型做事后总结:"这次失败的根因是 X""这个分支的关键洞察是 Y"
  • 标注过的轨迹反过来喂给小模型 SFT
  • 时间一长,小模型的因子直觉会逼近你们组里最资深研究员的水平
  • 这是一种"组织知识"自动化的形式,对人员流动是天然的对冲

10.3 工程化要点

  • 本地推理基础设施:vLLM / SGLang 集群跑量化版本,吞吐能到每秒几十到几百个候选
  • 数据合成是一次性投入:用 Claude/GPT-4 跑一次生成 50k 训练样本,之后所有推理都用小模型
  • 持续 SFT:每月用过去一个月的真实搜索轨迹(去噪过)增量训练,让小模型与时俱进
  • 冷启动:第一版小模型质量不够时,让大模型兜底;随着数据积累逐步提升小模型比例

11. 把框架做得更 Meta——分层路线图

核心问题:ASI-ARCH 已经够 meta 了,再上一层是什么?

ASI-ARCH 是"固定框架,搜对象"。再上一层,是让框架本身也成为可演化对象。学术界目前在这个方向还很早期,但层级已经清晰:

层级 0:搜对象本身(ASI-ARCH 现在的位置)

人写好 agent 拓扑、prompt、评估流水线,搜的是因子表达式。这是工业界目前的天花板,也是你们应该先打满的层级。

层级 1:搜搜索策略(meta-search over search policy)

不固定"Researcher 先 query Cognition Base 再提假设"这种流程,把 agent 之间的协作图也作为可演化对象。

  • 用 DAG 表达 agent 调用拓扑(参考 AutoMR),节点是"提假设""查文献""跑回测""归因""去重"等原子能力
  • 外层演化器搜:在什么阶段插入"风险归因"节点最有效?"提假设"前是否应该先做"市场 regime 识别"?不同流程在哪些 regime 下表现差异大?
  • 元目标:同样算力预算下,不同协作图最终产出的因子库 IR 谁更高
  • 评估贵(要跑完内层才能评外层),适合 BOHB / Hyperband 这种带早停的 HPO
  • ROI 评估:高,建议在层级 0 跑稳后立刻开始

层级 2:搜评估器本身(meta-evaluation)

最有价值也最容易翻车的一层。

  • 因子评估指标是开放问题——IC / IR / Sharpe / turnover / capacity / 正交性怎么加权没有标准答案
  • 把"评估器"也作为可演化对象:权重向量、或一个小评分网络
  • 元目标:这套评估器选出的因子,3 个月后在严格 OOS 上的表现
  • 思想脉络对应 Meta-Rewarding——judge 之上再加 meta-judge,评估"判断本身"
  • 风险:极易陷入 Goodhart 陷阱。必须有不受演化触及的最终 holdout,且演化周期至少季度级
  • ROI 评估:中-高,谨慎尝试

层级 3:搜 DSL(meta-DSL learning)

让系统自己提议新的原子算子

  • 自动从已有因子库 mining 高频子结构(参考 AlphaEvolve 把成功代码片段提炼成函数)
  • 例如"过去 N 天成交量加权平均价"经常出现 → 自动提升为一级算子
  • 工程上对应一个"算子库管理 agent",定期审视、提议、由元评估器决定是否纳入
  • ROI 评估:中,等层级 1 和 2 稳定后再做

层级 4:搜框架本身(self-improving framework)

最 meta 的层——系统观察自己跑了一段时间后的整体产出,主动改写自己的代码(改 Cognition Base 结构、改 agent prompt、改回测器)。

  • 学术界还没有真正跑通的工业级案例
  • 极易演化出"自定义指标分数很高但实际没价值"的怪胎(Goodhart 的极致版本)
  • ROI 评估:低,1-2 年内不建议碰

11.1 元层级实施优先级

层级 何时做 风险 预期增量
0 立刻 baseline,必须打满
1 层级 0 稳定 3-6 个月后 低-中 显著(agent 流程优化收益大)
2 有 1 年以上 OOS 数据沉淀后 显著但易翻车
3 层级 1 和 2 稳定后 中等
4 不建议 极高 不可预测

参考链接汇总

  • ASI-ARCH 论文:https://arxiv.org/abs/2507.18074
  • ASI-ARCH 代码:https://github.com/GAIR-NLP/ASI-Arch
  • AlphaEvolve 博客:https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
  • AlphaEvolve 论文:https://arxiv.org/abs/2506.13131
  • FunSearch (Nature):https://www.nature.com/articles/s41586-023-06924-6
  • FunSearch 代码:https://github.com/google-deepmind/funsearch
  • AlphaProof / AlphaGeometry 2 (Nature):https://www.nature.com/articles/s41586-025-09833-y
  • AI Scientist v2 论文:https://arxiv.org/abs/2504.08066
  • AI Scientist v2 代码:https://github.com/sakanaai/ai-scientist-v2
  • AlphaAgent:https://arxiv.org/abs/2502.16789
  • Alpha Jungle (LLM-MCTS):https://arxiv.org/abs/2505.11122
  • QuantaAlpha:https://github.com/QuantaAlpha/QuantaAlpha
  • OpenEvolve(AlphaEvolve 开源复现):https://huggingface.co/blog/codelion/openevolve
  • OpenSeeker:https://arxiv.org/abs/2603.15594
  • OpenSeeker-v2:https://arxiv.org/html/2605.04036
  • OpenSeeker 代码:https://github.com/rui-ye/OpenSeeker
  • AutoMR (Meta Reasoning Skeleton):https://openreview.net/forum?id=sh94I12rRJ
  • Meta-Rewarding Language Models:https://arxiv.org/abs/2407.19594