AI 驱动深度搜索 → 量化 Alpha 挖掘：Baseline 论文精读¶

整理时间：2026-05 目标读者：做自动化因子搜索、希望从 AI for Science / Math 的最新范式里挖迁移路径的量化研究员选篇标准：方法可复用、有公开代码或足够细节复现、近 2 年内的代表作

快速导读¶

#	论文	年份	核心范式	对 alpha 搜索的最大启发
1	FunSearch (Nature)	2023	LLM + 演化 + 程序搜索	用代码片段而非符号树作为因子表达
2	AlphaProof / AlphaGeometry 2	2024	神经符号 + RL + 形式验证	生成器与验证器解耦，验证流水线决定上限
3	AlphaEvolve	2025	FunSearch 的工程化升级版	长程序 + 多评估器 + 种群多样性管理
4	AI Scientist v2 (Sakana)	2025	全流程自主研究 + Agentic Tree Search	把"假设生成"也自动化，端到端闭环
5	ASI-ARCH (AlphaGo Moment)	2025	多智能体架构搜索 + 发现的 scaling law	因子发现也可以做成 compute-scalable，且经济学先验可注入"Cognition Base"
6	金融迁移工作（AlphaAgent / Alpha Jungle / QuantaAlpha）	2025	LLM-MCTS / 多 Agent 演化	已有的"半成品"参考实现，直接可作 baseline

1. FunSearch — 用程序搜索做开放式科学发现¶

论文：Romera-Paredes et al., Mathematical discoveries from program search with large language models, Nature 2023
代码：google-deepmind/funsearch
代表成果：在 cap set 问题（数学开放问题）上找到新构造；在 bin packing 上发现新启发式，超过 First Fit Decreasing 等经典算法。

1.1 方法论拆解¶

核心是一个生成-评估-演化的三段式闭环：

骨架程序（skeleton）：人工写好一个 Python 程序的"壳"——输入、输出、评估方式固定，只留下关键函数 priority(...) 由 LLM 演化。这一步把搜索范围严格框死，避免 LLM 跑题。
程序数据库 + Islands：维护多个相互隔离的子种群（islands），每个 island 独立演化、定期局部冷启动，防止整体收敛到局部最优。
Best-shot prompting：从数据库里抽 k 个高分程序，按分数升序排列拼成 few-shot prompt 喂回 LLM，要求生成"更好的一版"。这种排序方式让 LLM 看到"改进梯度"，效果明显优于随机抽样。
评估器：纯客观、可执行、跑得快。FunSearch 跑了几百万次程序级评估，所以评估必须便宜。
后处理：保留的不是黑箱解，而是可读 Python 程序，可以人工解释、提炼出数学结构。

1.2 对 alpha 搜索的迁移路径¶

直接对应：把 priority(...) 替换成 alpha(price, volume, fundamentals, ...) -> cross-sectional score，骨架里写死取数和回测流程。
关键改造：
评估器从"单点 IC"换成多目标向量（IC、IR、turnover、和存量库的正交残差 IC、子样本稳定性），用 Pareto front 维护种群而不是单标量评分。
Island 维度可以按"因子类型"分（量价 / 基本面 / 另类数据 / 事件型），强制每个 island 探索不同空间。
加一个时序数据穿越检查器作为硬约束，任何生成程序如果触碰未来信息直接淘汰。
可复用代码：FunSearch 官方仓库本身是教学性质（评估器是简化版），生产化建议参考 OpenEvolve 或 AlphaEvolve 的开源复现，把分布式评估、检查点、安全沙箱补齐。
坑：LLM 容易写出"看起来合理但偷偷穿越"的代码（比如用了未来一周的滚动均值），必须有静态分析 + 时间戳级别的运行时检查双保险。

2. AlphaProof / AlphaGeometry 2 — 神经符号双系统拿 IMO 银牌¶

论文：DeepMind, Olympiad-level formal mathematical reasoning with reinforcement learning, Nature 2025（IMO 2024 银牌成绩）
关键事实：6 题做对 4 题，包括公认最难的代数题（IMO 现场只有 5 人解出）。

2.1 方法论拆解¶

两套系统分工：

AlphaProof：处理代数、数论。Gemini 微调 + AlphaZero 式 RL。把题目翻译成 Lean 形式化语言，然后在证明搜索树上做 MCTS，每一步动作是"应用一条策略（tactic）"。Lean 内核充当绝对可信的验证器——只要 Lean 认可，证明就是对的。
AlphaGeometry 2：处理几何。LLM 提出"辅助线"作为构造性假设，再交给一个符号引擎做演绎闭包，发现矛盾或目标命题就成功。LLM 解决"创造性"部分（哪里画辅助线），符号系统解决"机械性"部分（推完所有蕴含）。
训练时自博弈：比赛期间也在跑——LLM 生成原题的变体，自己证明，把成功的证明加回训练集（类似 expert iteration）。

2.2 对 alpha 搜索的迁移路径¶

这一篇给的不是搜索框架，而是架构哲学——生成器和验证器要彻底解耦，且验证器必须"硬"。

类比映射：
LLM / 生成器 → 提出候选因子表达式或假设
Lean 内核 / 符号引擎 → 多层验证流水线（语法检查 → 数据穿越扫描 → 类型/单位检查 → 样本内 IC → 正交残差 IC → 子样本稳定性 → Deflated Sharpe Ratio）
MCTS → 在因子组合空间或参数空间做树搜索
Expert iteration → 把通过验证的因子加回 LLM 的训练或 few-shot 库
关键启示：
形式化你的因子语言。设计一个像 Lean tactic 一样有类型系统的 DSL，让"频率不匹配""单位混用""未来函数"在编译期就被拒。投入产出比极高，能砍掉 90% 以上的伪候选。
验证器的可信度决定一切。如果验证器有 bug 或评分噪声大，整个搜索会被引到错误方向。在金融里这意味着——回测引擎的严格性、统计检验的多重比较校正、Deflated Sharpe 这些不能省。
MCTS 在因子树上是低垂果实。因子组合（A op B、ts_rank(A, n)、行业内中性化…）天然是树结构，MCTS 比纯遗传搜索更高效，且和 LLM prior 结合自然——参考下文 Alpha Jungle。
坑：金融里没有 Lean 那种"绝对正确"的验证器，只有"统计上更可信"。所以验证器输出要从 0/1 改成置信度分布，整个搜索框架要适配"软验证"。

3. AlphaEvolve — FunSearch 的工程化成熟形态¶

论文：DeepMind, AlphaEvolve: A coding agent for scientific and algorithmic discovery, arXiv:2506.13131（2025-06）
博客：deepmind.google/blog/alphaevolve
代表成果：
把 4×4 复数矩阵乘法从 Strassen 的 49 次乘法降到 48 次（57 年来首次改进）
50+ 数学开放问题中 75% 持平 SOTA、20% 超越 SOTA
生产部署：把 Gemini 训练里某个关键 kernel 加速 23%，间接让训练时间降 1%；FlashAttention 内核加速 32.5%
DeepMind 数据中心调度策略，节省可观算力

3.1 方法论拆解¶

相对 FunSearch 的三个升级：

从单函数到长程序：FunSearch 演化几十行的小函数；AlphaEvolve 能演化几百到上千行的完整程序、跨多文件协同修改。
LLM 组合（ensemble）：Gemini 2.0 Flash 做大量"快速变异"（成本低、点子多），Gemini 2.0 Pro 做"精修和方向性突破"（贵但深）。配比和调度有讲究——便宜模型负责广度，贵模型负责关键节点。
多目标 + 多评估器：不再是单一标量分数。一个候选可能同时被"速度评估器""数值精度评估器""资源消耗评估器"打分，按 Pareto front 留种。

3.2 对 alpha 搜索的迁移路径¶

AlphaEvolve 是目前最接近开箱即用的范式。

直接套用：把"被优化代码"换成因子计算函数 + 组合权重函数，把评估器换成回测流水线。GitHub 上的 OpenEvolve 提供了开源复现，能省掉大量基础设施工作。
改造重点：
Pareto 前沿管理：金融里 IC、turnover、容量、回撤天然冲突，多目标 Pareto 比单目标 Sharpe 更适合。
快慢模型分工：用便宜模型（如本地 70B 蒸馏模型）跑大量变异，用 Claude / GPT-4 级别模型做关键节点的"深度修订"，成本可以压到能接受的范围。
演化长程序的价值：能把"因子计算 + 组合权重 + 风险约束"作为一个整体演化，而不是只演化单因子。这是传统 GP 完全做不到的。
可复用模块：
evaluators_database/ 设计模式可以直接借鉴
它的 prompt 工程（diff-based prompting，让 LLM 输出 patch 而不是整段代码）能显著降 token 成本
坑：AlphaEvolve 论文里 50+ 问题平均跑了几小时到几天，金融数据的回测开销远高于数学题求值，单次实验可能要小时级。评估代价是否能压到分钟级决定了整套范式能不能跑起来。可以考虑：先用一个轻量代理回测器（比如简化版、小样本）做粗筛，再用完整回测做精筛。

4. AI Scientist v2 — 把"研究流程"整个自动化¶

论文：Yamada et al., The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search, arXiv:2504.08066（2025-04）
代码：SakanaAI/AI-Scientist-v2
里程碑：首次出现"全 AI 撰写并通过同行评审"的论文（ICLR 2025 workshop）。

4.1 方法论拆解¶

v2 相对 v1 最重要的变化：抛弃人工代码模板，让一个 Experiment Manager Agent 在树搜索的节点上动态决定"下一步做什么"。

完整研究循环：

Idea 阶段：LLM 读相关文献 → 生成研究问题 → 用 LLM-as-judge 评分（新颖性、可行性、影响力）
Experiment 阶段：Agentic Tree Search——树的每个节点是一个"研究状态"（已有代码、已跑实验、已得到的结果），动作是"修改代码 / 跑新实验 / 改变方向 / 回退"。一个 Experiment Manager 决定扩展哪个节点。
Analysis 阶段：自动可视化、统计检验、生成图表
Writeup 阶段：自动写论文 LaTeX + 自动同行评审（自我批评 + 多轮修订）

4.2 对 alpha 搜索的迁移路径¶

这是上一轮我说"我最看好"的那条路线的范本。

核心借鉴：Agentic Tree Search 在研究流程层级展开。不是只搜因子表达式，而是搜"研究路径"——这条路径上包含：读哪几篇 paper、提什么假设、跑什么实验、看到结果后怎么走。
alpha 搜索的具体改造：
Idea 阶段：让 LLM 读最新的学术论文、卖方研报、监管文件、新闻、上市公司公告，提出"市场低效假设"
Experiment 阶段：Tree Search 的节点是"假设 + 已有的因子实现 + 已有的回测结果"。动作集合：精化假设、新增因子、改变 universe、改变频率、做子样本分析、组合多个因子、回退到祖先节点重新出发
Analysis 阶段：自动生成因子归因报告——这个因子和哪些已知风格因子相关、在什么 regime 失效、容量上限多大
把 LLM-as-judge 改成 finance-as-judge：用 Deflated Sharpe、Probabilistic Sharpe Ratio、对比 benchmark factor zoo 给候选打置信度分
工程化要点：
Tree Search 节点的状态空间很大，需要类似 ASI-ARCH 的"Cognition Base"做经验复用
资源调度是关键——一个深层节点可能要跑几小时回测，要有 budget 控制
可复用代码：v2 的 tree search 框架、experiment manager 设计、自动可视化都能直接拆出来用。
坑：AI Scientist 评测结果显示"产出大量看起来像论文但内容平庸的工作"。在 alpha 上同样会出现"看起来合理的因子但没有真实信号"——必须用比论文 peer review 严得多的统计标准卡。

5. ASI-ARCH — "AlphaGo Moment for Model Architecture Discovery"¶

论文：Liu et al., AlphaGo Moment for Model Architecture Discovery, arXiv:2507.18074（2025-07，SII / GAIR-NLP 上海人工智能实验室）
代码：GAIR-NLP/ASI-Arch
规模：20,000 GPU 小时、1,773 次自主实验、106 个超越人类 baseline（含 Mamba2）的新线性注意力架构
为什么叫"AlphaGo Moment"：作者论证发现了一个经验性的 Scaling Law for Scientific Discovery——累计 SOTA 架构数 vs 投入算力呈强线性关系。也就是说，科研产出可以被算力直接 scale，第一次有了实证证据。

5.1 方法论拆解¶

ASI-ARCH 是一个闭环多 Agent 框架，本质是 FunSearch / AlphaEvolve 的范式 + 多 Agent 分工 + 学术先验注入：

三个核心 Agent¶

Researcher：基于历史结果和先验知识提出新架构。内部又拆成 Planner（设计模型）+ Code Checker（语法/类型正确性）+ Deduplication agent（防止和已有架构本质重复）
Engineer：在真实代码环境里训练和评估。带一个 Debugger agent 能自动诊断和修复训练失败
Analyst：对每个实验结果做综合解读——和 baseline 比、和历史实验比、提炼出"为什么这次有效/无效"

两个支撑模块¶

Database：所有实验、代码、结果、insight 的版本化存储
Cognition Base：从人类论文里抽取的结构化知识（核心思想、设计原则、失败模式）。Researcher 提出新架构前先 query 这个库，相当于把整个学界的先验注入到搜索 prior 里。

两阶段调度¶

Exploration 阶段（小模型）：跑大量小规模实验（百兆参数级），快速过滤
Verification 阶段（大模型）：把 exploration 阶段最有希望的几十个候选放到中等规模（亿级）做真实验证

5.2 关键发现：Scaling Law for Discovery¶

这是论文最重磅的部分——把 cumulative SOTA architectures 对 total GPU hours 画图，得到一条漂亮的线性曲线。含义：

科研生产力不再受限于研究员人数
只要框架对了，翻倍算力 ≈ 翻倍突破
这种线性关系本身就是一个可被进一步研究的现象——为什么不饱和？瓶颈在哪？

5.3 对 alpha 搜索的迁移路径¶

ASI-ARCH 是这一波最值得照搬的范本，因为它和 alpha 搜索的相似度极高：

ASI-ARCH 组件	Alpha 搜索对应物
架构候选（Python 模型定义）	因子候选（Python 因子函数 + 组合权重）
ImageNet/语言建模 benchmark	历史回测（含 holdout）
Cognition Base（架构论文知识库）	因子学术库（金融学术论文、卖方因子、市场微观结构理论）
Researcher Agent	"提出新因子假设"的 Agent
Engineer Agent	"把假设变成可回测代码并跑回测"的 Agent
Analyst Agent	"归因分析 / 写因子研究报告"的 Agent
Exploration → Verification	简化回测 → 完整回测 → 模拟盘

具体改造建议¶

Cognition Base 是最大杠杆。把过去 30 年的资产定价论文、Barra/Axioma 风险因子文档、各种 anomaly 综述（Hou-Xue-Zhang factor zoo、JKP factor library）结构化进库。Researcher 每次提出因子前必须 ground 到至少一个已知机制。这一步直接砍掉 90% 的过拟合候选。
多 Agent 分工值得照搬。在金融里：
Researcher：读最新论文 + 提因子假设
Quant Engineer：实现因子 + 跑回测
Risk Analyst：做归因、解释因子在不同 regime 的行为
Portfolio Manager Agent：决定这个因子加入组合后的边际贡献和最优权重
去重 Agent 极重要。因子去重比架构去重更难，因为两个表达式不同的因子可能在数据上高度相关。需要：
表达式层面：AST 标准化 + 哈希
行为层面：在 holdout 上算时间序列相关性、横截面 IC 相关性
两阶段调度直接搬。粗筛用：单资产小样本、低频、简化回测；精筛用：完整 universe、含交易成本、含约束的组合优化器。
Scaling Law 假设是否成立要验证。在架构搜索里成立的根本原因是评估器可靠（loss 是真信号）。在金融里如果评估器噪声大，加算力换来的可能不是更多 SOTA 而是更多过拟合。所以先做小规模实验验证 scaling 曲线再 scale，别盲目堆算力。

复现成本¶

已有社区复现项目 llm-asi-arch（用 MLX 在 Apple Silicon 跑），框架代码大致可用
真正昂贵的不是框架，是Cognition Base 的构建和评估器的工程化
工程团队建议：1 个负责框架（2-4 周搭起来）、1 个负责知识库（持续工作）、2 个负责回测和数据基础设施（持续工作）

5.4 局限性与待解¶

论文里实验都在线性注意力这个狭窄但定义清晰的领域。金融的"领域定义"模糊得多
Scaling law 在 1,773 次实验范围内成立，更大规模是否饱和未知
Cognition Base 的构建质量很大程度上靠人工策划，自动化程度有限

6. 已有的金融领域迁移工作（作为对照 / 起点 baseline）¶

不是核心精读，但作为你们的起点 baseline 一定要看：

6.1 AlphaAgent¶

论文：AlphaAgent: LLM-Driven Alpha Mining with Regularized Exploration to Counteract Alpha Decay, arXiv:2502.16789（2025-02）
机制：三 Agent 闭环（hypothesis generation → factor construction → evaluation），用三种正则——原创性强制、假设对齐、复杂度控制——专门对抗 alpha decay
结果：hit ratio 提升 81%，对 alpha decay 鲁棒性显著
价值：是 ASI-ARCH 范式在 alpha 上的"轻量化版本"，能直接 fork

6.2 Navigating the Alpha Jungle (LLM-MCTS)¶

论文：arXiv:2505.11122（2025-05）
机制：把 AlphaProof 的 LLM + MCTS 思路搬到公式型因子搜索上——MCTS 在因子表达式树上扩展节点，LLM 提供节点选择和扩展的 prior，回测做 reward
价值：AlphaProof / AlphaZero 范式在金融上最直接的对应实现

6.3 QuantaAlpha¶

代码：QuantaAlpha/QuantaAlpha
机制：LLM + 演化的自我演化框架，跨 A 股和美股测试都比 baseline 更稳定
价值：开源、工程完整度较高，可作起步骨架

6.4 Alpha-GPT / FactorMAD¶

Alpha-GPT 偏交互式人机协作；FactorMAD 用多 Agent 辩论提升可解释性
在我们的方向里更适合作为"产品形态参考"而非"算法核心"

7. 横向对比矩阵¶

维度	FunSearch	AlphaProof	AlphaEvolve	AI Scientist v2	ASI-ARCH
搜索单元	单函数（几十行）	形式证明（tactic 序列）	长程序（百-千行）	完整研究流程	完整架构定义 + 训练代码
生成器	LLM	Gemini + AlphaZero	Gemini Flash + Pro	LLM agent + manager	多 LLM agent（Researcher/Engineer/Analyst）
验证器	客观评估函数	Lean 内核（绝对可信）	多评估器 Pareto	LLM-as-judge + 实验	benchmark loss + analyst 综合
先验注入	骨架代码	训练时大量自博弈	prompt + diff 模板	文献检索	Cognition Base（结构化论文知识）
Scaling 行为	显著但未明确量化	训练期间收敛	算力越多解越好	树深越大产出越多	线性 scaling law
对 alpha 适配难度	低	中（需软验证器）	低-中	中-高（agent 编排复杂）	中（最贴近，但 Cognition Base 是大工程）
公开复现	官方 + 多个第三方	仅论文	OpenEvolve	官方完整	官方 + MLX 复现
推荐优先级	入门 baseline	架构哲学参考	生产化首选	长期目标	战略级首选

8. 落地路线图建议¶

第 0-1 个月：搭最小可行 baseline¶

Fork OpenEvolve 或 QuantaAlpha 作起点
把生成器换成你们自己的 prompt，把评估器接到你们现有的回测系统
目标：能跑通端到端，每天产 10-50 个候选因子并通过基础筛选

第 1-3 个月：把验证流水线做厚¶

借鉴 AlphaProof 的哲学：

设计因子 DSL，做类型系统级的非法表达式拦截
数据穿越扫描器（静态 + 运行时双层）
多重检验校正：Deflated Sharpe、BH-FDR
正交残差 IC 评估、子样本稳定性评估
这一步如果做扎实，单点效率比换更好的生成器收益大得多

第 3-6 个月：引入 Cognition Base + 多 Agent¶

参考 ASI-ARCH：

构建因子学术库（论文 + 卖方研报 + 监管文件 + 公司公告）
Researcher / Engineer / Analyst 三 Agent 分工
两阶段调度（粗筛 → 精筛）
去重 Agent（表达式层 + 行为层）

第 6-12 个月：完整研究流程自动化¶

参考 AI Scientist v2：

把"提假设"也自动化——LLM 读最新文献和市场数据，主动提研究问题
Agentic Tree Search 在研究流程层做规划
自动生成因子研究报告供人工 review
持续验证 scaling law 是否在你们的数据 / 评估器配置下成立

9. 风险清单 / 反模式¶

盲目追 LLM 生成器升级：在评估器和数据基础设施没做好之前，换更强的 LLM 收益边际递减很快
scaling law 直接迁移：金融数据信噪比远低于数学和架构搜索，不要假设线性 scaling 必然成立
Cognition Base 不更新：因子在被发现的同时就在衰减，知识库要持续吸收最新论文和市场行为
多 Agent 编排过度复杂：3-5 个 Agent 已经够，过多反而互相干扰，调试成本爆炸
统计检验偷懒：搜索空间一大，假阳性必然多。Deflated Sharpe 不是可选项是必选项
忽视产能与拥挤：搜出来的因子真上线时要考虑容量、冲击成本、和市场上其他参与者的相似度

10. 开源小模型路线（OpenSeeker 范式）¶

核心问题：能不能不用每次都调 Claude/GPT-4，用便宜的开源小模型作为主要生成器？

10.1 OpenSeeker 的方法论要点¶

论文：OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data, arXiv:2603.15594
v2：OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories, arXiv:2605.04036
代码：rui-ye/OpenSeeker（同 ASI-ARCH 出自 GAIR）

最颠覆性的结论：v1 用 11.7k 合成样本 + 简单 SFT，在 BrowseComp 上 29.5% vs DeepDive 15.3%；BrowseComp-ZH 上 48.4%，超过通义 DeepResearch 的 46.7%（后者用 CPT+SFT+RL 重训）。

三个关键技术：

Fact-grounded scalable controllable QA synthesis：从已知答案反向构造，沿 web graph 做多跳扩展和实体混淆，保证生成的训练样本"可验证、难度可控、覆盖度可控"。
Denoised trajectory synthesis：用回顾性总结机制压缩失败探索、保留有信息量的步骤、显式标注转折点。轨迹质量比数量重要得多。
简单 SFT 即可达到 RL pipeline 的效果，前提是数据质量够高。

10.2 对 alpha 搜索的迁移路径¶

训一个专用的"因子研究员"小模型¶

底座：Qwen3-14B、DeepSeek-V3-Coder-Lite、Llama 4 Mini 量级，本地推理快
训练数据：合成因子研究轨迹——从已知有效因子（动量、low vol、accruals 等公开 anomaly）反向构造完整的"研究员从零推导出此因子"轨迹，包含读哪些论文、提了什么假设、做了哪些实验、被什么结果说服、最终落到表达式
数据规模：参考 OpenSeeker，1-5 万条高质量轨迹应该够
训练成本：几百到几千美元（数据合成是大头，SFT 本身便宜）

推理阶段的成本结构¶

角色	推荐模型	单次调用成本	频次
Researcher（生成因子候选）	Qwen3-14B / 自研 SFT 模型	~$0.0001	高频（每天几万次）
Code Checker（语法/穿越扫描）	3-7B 小模型	~$0.00001	高频
Analyst（因子归因报告）	Claude / Gemini Pro	~$0.05	中频（每天几百次）
Meta-judge（升级通道）	Claude Opus / GPT-4	~$0.20	低频（每天几十次）

整体把每个候选因子的 LLM 成本从几美分降到几厘以下，搜索空间可以放大 10-100 倍。

轨迹去噪是被低估的一环¶

你们现在跑搜索时积累的所有失败实验别扔：

用大模型做事后总结："这次失败的根因是 X""这个分支的关键洞察是 Y"
标注过的轨迹反过来喂给小模型 SFT
时间一长，小模型的因子直觉会逼近你们组里最资深研究员的水平
这是一种"组织知识"自动化的形式，对人员流动是天然的对冲

10.3 工程化要点¶

本地推理基础设施：vLLM / SGLang 集群跑量化版本，吞吐能到每秒几十到几百个候选
数据合成是一次性投入：用 Claude/GPT-4 跑一次生成 50k 训练样本，之后所有推理都用小模型
持续 SFT：每月用过去一个月的真实搜索轨迹（去噪过）增量训练，让小模型与时俱进
冷启动：第一版小模型质量不够时，让大模型兜底；随着数据积累逐步提升小模型比例

11. 把框架做得更 Meta——分层路线图¶

核心问题：ASI-ARCH 已经够 meta 了，再上一层是什么？

ASI-ARCH 是"固定框架，搜对象"。再上一层，是让框架本身也成为可演化对象。学术界目前在这个方向还很早期，但层级已经清晰：

层级 0：搜对象本身（ASI-ARCH 现在的位置）¶

人写好 agent 拓扑、prompt、评估流水线，搜的是因子表达式。这是工业界目前的天花板，也是你们应该先打满的层级。

层级 1：搜搜索策略（meta-search over search policy）¶

不固定"Researcher 先 query Cognition Base 再提假设"这种流程，把 agent 之间的协作图也作为可演化对象。

用 DAG 表达 agent 调用拓扑（参考 AutoMR），节点是"提假设""查文献""跑回测""归因""去重"等原子能力
外层演化器搜：在什么阶段插入"风险归因"节点最有效？"提假设"前是否应该先做"市场 regime 识别"？不同流程在哪些 regime 下表现差异大？
元目标：同样算力预算下，不同协作图最终产出的因子库 IR 谁更高
评估贵（要跑完内层才能评外层），适合 BOHB / Hyperband 这种带早停的 HPO
ROI 评估：高，建议在层级 0 跑稳后立刻开始

层级 2：搜评估器本身（meta-evaluation）¶

最有价值也最容易翻车的一层。

因子评估指标是开放问题——IC / IR / Sharpe / turnover / capacity / 正交性怎么加权没有标准答案
把"评估器"也作为可演化对象：权重向量、或一个小评分网络
元目标：这套评估器选出的因子，3 个月后在严格 OOS 上的表现
思想脉络对应 Meta-Rewarding——judge 之上再加 meta-judge，评估"判断本身"
风险：极易陷入 Goodhart 陷阱。必须有不受演化触及的最终 holdout，且演化周期至少季度级
ROI 评估：中-高，谨慎尝试

层级 3：搜 DSL（meta-DSL learning）¶

让系统自己提议新的原子算子。

自动从已有因子库 mining 高频子结构（参考 AlphaEvolve 把成功代码片段提炼成函数）
例如"过去 N 天成交量加权平均价"经常出现 → 自动提升为一级算子
工程上对应一个"算子库管理 agent"，定期审视、提议、由元评估器决定是否纳入
ROI 评估：中，等层级 1 和 2 稳定后再做

层级 4：搜框架本身（self-improving framework）¶

最 meta 的层——系统观察自己跑了一段时间后的整体产出，主动改写自己的代码（改 Cognition Base 结构、改 agent prompt、改回测器）。

学术界还没有真正跑通的工业级案例
极易演化出"自定义指标分数很高但实际没价值"的怪胎（Goodhart 的极致版本）
ROI 评估：低，1-2 年内不建议碰

11.1 元层级实施优先级¶

层级	何时做	风险	预期增量
0	立刻	低	baseline，必须打满
1	层级 0 稳定 3-6 个月后	低-中	显著（agent 流程优化收益大）
2	有 1 年以上 OOS 数据沉淀后	高	显著但易翻车
3	层级 1 和 2 稳定后	中	中等
4	不建议	极高	不可预测

参考链接汇总¶

ASI-ARCH 论文：https://arxiv.org/abs/2507.18074
ASI-ARCH 代码：https://github.com/GAIR-NLP/ASI-Arch
AlphaEvolve 博客：https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
AlphaEvolve 论文：https://arxiv.org/abs/2506.13131
FunSearch (Nature)：https://www.nature.com/articles/s41586-023-06924-6
FunSearch 代码：https://github.com/google-deepmind/funsearch
AlphaProof / AlphaGeometry 2 (Nature)：https://www.nature.com/articles/s41586-025-09833-y
AI Scientist v2 论文：https://arxiv.org/abs/2504.08066
AI Scientist v2 代码：https://github.com/sakanaai/ai-scientist-v2
AlphaAgent：https://arxiv.org/abs/2502.16789
Alpha Jungle (LLM-MCTS)：https://arxiv.org/abs/2505.11122
QuantaAlpha：https://github.com/QuantaAlpha/QuantaAlpha
OpenEvolve（AlphaEvolve 开源复现）：https://huggingface.co/blog/codelion/openevolve
OpenSeeker：https://arxiv.org/abs/2603.15594
OpenSeeker-v2：https://arxiv.org/html/2605.04036
OpenSeeker 代码：https://github.com/rui-ye/OpenSeeker
AutoMR (Meta Reasoning Skeleton)：https://openreview.net/forum?id=sh94I12rRJ
Meta-Rewarding Language Models：https://arxiv.org/abs/2407.19594