跳到主要内容

Darwinian Evolver

使用 Imbue 的进化循环来演化提示词(prompts)、正则表达式、SQL 或代码。

技能元数据

来源可选 — 使用 hermes skills install official/research/darwinian-evolver 安装
路径optional-skills/research/darwinian-evolver
版本0.1.0
作者Bihruze (Asahi0x), Hermes Agent
许可证MIT
平台linux, macos
标签evolution, optimization, prompt-engineering, research
相关技能arxiv, jupyter-live-kernel

参考:完整 SKILL.md

信息

以下是 Hermes 在触发此技能时加载的完整技能定义。这是技能激活时代理(agent)看到的指令。

Darwinian Evolver

运行 Imbue 的 darwinian_evolver —— 一个 由大语言模型(LLM)驱动的进化搜索循环 —— 以针对适应度函数优化 提示词、正则表达式、SQL 查询 或小段代码

状态:上游工具的薄封装层。该技能会安装它,引导代理编写 Problem 定义(生物体 + 评估器 + 变异器), 并通过上游 CLI 或小型自定义 Python 驱动程序驱动循环。

许可证: 上游工具采用 AGPL-3.0 许可证。本技能仅通过上游 CLI 或 subprocess/uv run 调用 来调用它( mere aggregation,单纯聚合)。切勿将上游类导入 Hermes 本身。

何时使用

  • 用户说“优化这个提示词”、“为 X 演化一个正则表达式”、“自动改进这段代码/SQL”、“搜索更好的指令”。
  • 你有一个评分器(精确匹配、正则通过率、单元测试、LLM 评判、运行时指标)AND 一个起始候选者(生物体)。如果你没有评分器,请停止并先定义一个——那是最难的部分。
  • 成本可接受:典型运行需要 50–500 次 LLM 调用。在 gpt-4o-mini 上只需几美分; 在 Claude Sonnet 上可能需要几美元。

不要在以下情况使用:

  • 优化目标是可微分的(使用梯度下降 / DSPy)。
  • 你只需要尝试 2–3 个变体——直接手动编写它们。
  • 适应度信号纯粹是主观的,没有任何可衡量的标准。

前置条件

  • Python ≥3.11
  • git, uv(或 pip
  • 以下之一:OPENROUTER_API_KEY, ANTHROPIC_API_KEY, 或 OPENAI_API_KEY

该技能附带一个小型 parrot_openrouter.py 驱动程序,它通过 OpenAI SDK 使用 OPENROUTER_API_KEY, 因此 OpenRouter 上的任何模型均可使用。上游 CLI 本身硬编码了 Anthropic 并需要 ANTHROPIC_API_KEY

安装(一次性)

通过 terminal 工具运行:

mkdir -p ~/.hermes/cache/darwinian-evolver && cd ~/.hermes/cache/darwinian-evolver
[ -d darwinian_evolver ] || git clone --depth 1 https://github.com/imbue-ai/darwinian_evolver.git
cd darwinian_evolver && uv sync

验证:

cd ~/.hermes/cache/darwinian-evolver/darwinian_evolver \
&& uv run darwinian_evolver --help | head -5

快速入门 — 内置 Parrot 示例

小型烟雾测试(需要 ANTHROPIC_API_KEY):

cd ~/.hermes/cache/darwinian-evolver/darwinian_evolver
uv run darwinian_evolver parrot \
--num_iterations 2 \
--num_parents_per_iteration 2 \
--mutator_concurrency 2 --evaluator_concurrency 2 \
--output_dir /tmp/parrot_demo

输出:

  • /tmp/parrot_demo/snapshots/iteration_N.pkl — 每次迭代的序列化种群
  • /tmp/parrot_demo/<jsonl> — 每次迭代的 JSON 日志(路径在末尾打印)

在浏览器中打开 ~/.hermes/cache/darwinian-evolver/darwinian_evolver/darwinian_evolver/lineage_visualizer.html 并加载 JSON 日志以查看进化树。

快速入门 — OpenRouter 驱动程序(无需 Anthropic 密钥)

该技能附带 scripts/parrot_openrouter.py —— 相同的 parrot 问题,但 LLM 调用通过 OpenRouter 进行,因此任何提供商均可使用。

# From wherever the skill is installed:
SKILL_DIR=~/.hermes/skills/research/darwinian-evolver
DE_DIR=~/.hermes/cache/darwinian-evolver/darwinian_evolver

cd "$DE_DIR" && \
EVOLVER_MODEL='openai/gpt-4o-mini' \
uv run --with openai python "$SKILL_DIR/scripts/parrot_openrouter.py" \
--num_iterations 3 --num_parents_per_iteration 2 \
--output_dir /tmp/parrot_or

使用 scripts/show_snapshot.py 检查结果:

uv run --with openai python "$SKILL_DIR/scripts/show_snapshot.py" \
/tmp/parrot_or/snapshots/iteration_3.pkl

预期输出:7 个按分数排名的演化提示词模板,最佳得分约为 0.6–0.8(种子 Say {{ phrase }} 得分为 0.000)。

定义自定义问题

该技能附带 templates/custom_problem_template.py —— 复制、编辑、运行。 你必须定义三件事:

  1. Organism — 一个 Pydantic BaseModel 子类,持有正在演化的工件(prompt_template: str, regex_pattern: str, sql_query: str, code_block: str 等)。添加一个 run(*args) 方法来执行它。

  2. Evaluator.evaluate(organism) -> EvaluationResult(score=..., trainable_failure_cases=[...], holdout_failure_cases=[...], is_viable=True)

    • score 范围在 [0, 1]。越高越好。
    • trainable_failure_cases — 变异器看到的内容。包含足够的 上下文(输入、预期、实际)以便 LLM 进行诊断。
    • holdout_failure_cases — 对变异器不可见。使用这些 来检测过拟合。
    • is_viable=True 除非生物体完全损坏(抛出异常、 返回 None 等)。得分为 0 的生物体也是可行的——它只是在父代选择中权重降低。
  3. Mutator.mutate(organism, failure_cases, learning_log_entries) -> list[Organism]。 通常:构建一个包含当前生物体 + 失败案例 + 请求提出修复方案的 LLM 提示词;解析 LLM 的响应;返回 一个新的 Organism。如果解析失败则返回 [] —— 循环会处理这种情况。

然后编写一个驱动脚本,将 Problem(initial_organism, evaluator, [mutators]) 接入 EvolveProblemLoop,并迭代执行 loop.run(num_iterations=N) —— 已提供的 scripts/parrot_openrouter.py 可作为参考。

真正重要的超参数

标志默认值何时更改
--num_iterations5一旦你信任评估器,就增加到 10–20
--num_parents_per_iteration4为了低成本探索,降至 2
--mutator_concurrency10降至 2–4 以避免速率限制
--evaluator_concurrency10同上;评估器也会调用 LLM
--batch_size1一旦你的变异器能处理多个失败案例,就提高到 3–5
--verify_mutationsoff一旦变异器变得浪费(根据 Imbue 的说法,后续运行每次可节省 >10× 成本),就开启
--midpoint_scorep75除非分数聚集,否则保持不变
--sharpness10保持不变

陷阱

  1. 初始生物体必须可行 — 即使种子得分为 0,也要在你的 EvaluationResult 中设置 is_viable=True。循环会拒绝不可行的生物体,因为它们意味着循环没有可进化的基础。
  2. 提供商的内容过滤器会终止运行。 Azure 支持的 OpenRouter 模型会以 HTTP 400 拒绝诸如 "ignore previous instructions" 之类的短语。将 LLM 调用包裹在 try/except 中,并返回 f"<LLM_ERROR: {e}>" — 进化器只会将该生物体评分为 0 并继续。
  3. loop.run() 是一个生成器 — 调用它并不会立即运行任何内容,直到你进行迭代。使用 for snap in loop.run(num_iterations=N):
  4. 快照是嵌套的 pickle 对象。 iteration_N.pkl 包含一个字典,其中有 population_snapshot(更多 pickle 字节)。要反 pickle,你必须确保 Organism 类在其被 pickle 时的相同点号路径下可导入。
  5. 并发默认值过于激进。 10/10 会在大多数提供商处触发速率限制。从 2/2 开始。
  6. CLI 硬编码为 Anthropic。 uv run darwinian_evolver <problem> 会使用 ANTHROPIC_API_KEY 并调用 Claude Sonnet。要使用任何其他提供商,请编写像 parrot_openrouter.py 这样的驱动脚本。
  7. AGPL。 切勿在 Hermes 核心内部使用 from darwinian_evolver import ...。位于 ~/.hermes/skills/... 下的自定义驱动脚本属于用户侧,是允许的。
  8. 无 PyPI 包。 pip install darwinian-evolver 会拉取错误的东西。始终从 GitHub 仓库安装。

验证

安装并运行一次 parrot 后,以下命令退出码为 0 即足够:

DE_DIR=~/.hermes/cache/darwinian-evolver/darwinian_evolver
ls "$DE_DIR/darwinian_evolver/lineage_visualizer.html" >/dev/null && \
cd "$DE_DIR" && uv run darwinian_evolver --help >/dev/null && \
echo "darwinian-evolver: OK"

参考资料