系统化调试

在遇到任何 bug、测试失败或意外行为时使用。分为四个阶段的根本原因调查——在未理解问题之前，严禁进行修复。

技能元数据


来源	捆绑（默认安装）
路径	`skills/software-development/systematic-debugging`
版本	`1.1.0`
作者	Hermes Agent（改编自 obra/superpowers）
许可证	MIT
标签	`debugging`, `troubleshooting`, `problem-solving`, `root-cause`, `investigation`
相关技能	`test-driven-development`, `writing-plans`, `subagent-driven-development`

参考：完整 SKILL.md

信息

以下是 Hermes 在触发此技能时加载的完整技能定义。这是技能激活时代理所看到的指令。

系统化调试

概述

随意修复会浪费时间并引入新的 bug。快速补丁会掩盖潜在问题。

核心原则： 在尝试修复之前，务必找到根本原因。仅修复症状即为失败。

违反此流程的字面要求，即违背了调试的精神实质。

铁律

NO FIXES WITHOUT ROOT CAUSE INVESTIGATION FIRST

如果未完成第一阶段，不得提出修复方案。

何时使用

适用于任何技术问题：

测试失败
生产环境中的 bug
意外行为
性能问题
构建失败
集成问题

尤其在以下情况下使用：

时间紧迫（紧急情况容易让人倾向于猜测）
“只需快速修复一下”看起来显而易见
已经尝试过多次修复
之前的修复未生效
尚未完全理解问题

以下情况不要跳过：

问题看似简单（简单的 bug 也有根本原因）
赶时间（匆忙必然导致返工）
有人要求立即修复（系统化方法比盲目尝试更快）

四个阶段

在进入下一阶段之前，必须完成当前阶段。

第一阶段：根本原因调查

在尝试任何修复之前：

1. 仔细阅读错误信息

不要跳过错误或警告
它们通常包含确切的解决方案
完整阅读堆栈跟踪
注意行号、文件路径、错误代码

操作： 对相关源文件使用 read_file。使用 search_files 在代码库中搜索错误字符串。

2. 稳定复现

能否可靠地触发它？
确切步骤是什么？
是否每次都会发生？
如果无法复现 → 收集更多数据，不要猜测

操作： 使用 terminal 工具运行失败的测试或触发 bug：

# Run specific failing test
pytest tests/test_module.py::test_name -v

# Run with verbose output
pytest tests/test_module.py -v --tb=long

3. 检查近期变更

哪些变更可能导致此问题？
Git diff、最近的提交
新依赖项、配置变更

操作：

# Recent commits
git log --oneline -10

# Uncommitted changes
git diff

# Changes in specific file
git log -p --follow src/problematic_file.py | head -100

4. 在多组件系统中收集证据

当系统包含多个组件时（API → 服务 → 数据库，CI → 构建 → 部署）：

在提出修复方案之前，添加诊断 instrumentation：

对于每个组件边界：

记录进入组件的数据
记录离开组件的数据
验证环境/配置的传播
检查每一层的状态

运行一次以收集证据，显示问题出现在何处。然后分析证据以识别失败的组件。接着调查该特定组件。

5. 追踪数据流

当错误位于调用栈深处时：

不良值源自何处？
是谁用不良值调用了此函数？
持续向上游追踪，直到找到源头
在源头修复，而非在症状处修复

操作： 使用 search_files 追踪引用：

# Find where the function is called
search_files("function_name(", path="src/", file_glob="*.py")

# Find where the variable is set
search_files("variable_name\\s*=", path="src/", file_glob="*.py")

第一阶段完成检查清单

已充分阅读并理解错误信息
问题已稳定复现
已识别并审查近期变更
已收集证据（日志、状态、数据流）
问题已隔离到特定组件/代码
已形成根本原因假设

停止： 在理解问题发生的原因之前，不要进入第二阶段。

第二阶段：模式分析

在修复之前先找到模式：

1. 寻找可行的示例

在同一代码库中定位类似的可行代码
有哪些与破损部分相似且正常工作的代码？

操作： 使用 search_files 查找可比模式：

search_files("similar_pattern", path="src/", file_glob="*.py")

2. 与参考实现对比

如果在实现某种模式，请完整阅读参考实现
不要略读——逐行阅读
在应用之前充分理解该模式

3. 识别差异

正常工作部分与破损部分之间有何不同？
列出每一个差异，无论多么微小
不要假设“那应该无关紧要”

4. 理解依赖关系

这需要其他哪些组件？
需要哪些设置、配置、环境？
它做出了哪些假设？

第三阶段：假设与测试

科学方法：

1. 形成单一假设

清晰陈述：“我认为 X 是根本原因，因为 Y”
写下来
具体明确，避免模糊

2. 最小化测试

进行最小可能的更改以测试假设
一次只改变一个变量
不要同时修复多个问题

3. 在继续之前验证

生效了吗？→ 进入第四阶段
没生效？→ 形成新假设
不要在此基础上添加更多修复

4. 当你不知道时

说“我不理解 X”
不要假装知道
向用户寻求帮助
进行更多研究

第四阶段：实施

修复根本原因，而非症状：

1. 创建失败的测试用例

尽可能简单的复现步骤
如果可能，使用自动化测试
在修复之前必须拥有测试用例
使用 test-driven-development 技能

2. 实施单一修复

针对已识别的根本原因
一次仅做一个更改
不进行“既然都在这儿了”式的改进
不进行捆绑式重构

3. 验证修复

# Run the specific regression test
pytest tests/test_module.py::test_regression -v

# Run full suite — no regressions
pytest tests/ -q

4. 如果修复无效——三次法则

停止。
计数：你尝试了多少次修复？
如果 < 3 次：返回第一阶段，利用新信息重新分析
如果 ≥ 3 次：停止并质疑架构（见下文步骤 5）
在没有进行架构讨论的情况下，不要尝试第 4 次修复

5. 如果 3 次或更多修复失败：质疑架构

表明存在架构问题的模式：

每次修复都在不同位置揭示了新的共享状态/耦合
修复需要“大规模重构”才能实施
每次修复都在其他地方产生了新的症状

停止并质疑基础：

这种模式在根本上是否健全？
我们是否只是“因惯性而坚持”？
我们应该重构架构，还是继续修复症状？

在尝试更多修复之前，与用户讨论。

这不是假设失败——这是架构错误。

危险信号——停止并遵循流程

如果你发现自己在想：

“先快速修复，稍后再调查”
“试着改一下 X 看看是否有效”
“添加多个更改，运行测试”
“跳过测试，我会手动验证”
“可能是 X，让我修复它”
“我不完全理解，但这可能有效”
“模式说是 X，但我会用不同的方式适配”
“主要问题是：[未经调查就列出修复方案]”
在追踪数据流之前提出解决方案
“再试一次修复”（当已经尝试过 2 次或更多时）
每次修复都在不同位置揭示出新问题

所有这些都意味着：停止。返回第一阶段。

如果 3 次或更多修复失败： 质疑架构（第四阶段步骤 5）。

常见的合理化借口

借口	现实
“问题很简单，不需要流程”	简单问题也有根本原因。对于简单 bug，流程很快。
“紧急情况，没时间走流程”	系统化调试比盲目猜测和反复试错更快。
“先试试这个，然后再调查”	第一次修复确立了模式。从一开始就要做对。
“确认修复有效后我再写测试”	未经测试的修复无法持久。先写测试才能证明有效性。
“一次性修复多个问题节省时间”	无法隔离真正生效的部分。会导致新 bug。
“参考资料太长，我会适配模式”	部分理解必然导致 bug。完整阅读资料。
“我看到了问题，让我修复它”	看到症状 ≠ 理解根本原因。
“再试一次修复”（在 2 次或更多失败后）	3 次或更多失败 = 架构问题。质疑模式，不要再次修复。

快速参考

阶段	关键活动	成功标准
1. 根本原因	阅读错误信息、复现问题、检查变更、收集证据、追踪数据流	理解是什么和为什么
2. 模式	查找有效示例、进行比较、识别差异	知道不同之处
3. 假设	形成理论、最小化测试、一次一个变量	确认假设或形成新假设
4. 实施	创建回归测试、修复根本原因、验证	Bug 已解决，所有测试通过

Hermes Agent 集成

调查工具

在第一阶段使用这些 Hermes 工具：

search_files — 查找错误字符串、追踪函数调用、定位模式
read_file — 读取带行号的源代码以进行精确分析
terminal — 运行测试、检查 git 历史、复现 bug
web_search/web_extract — 研究错误消息、库文档

配合 delegate_task

对于复杂的多组件调试，分派调查子代理：

delegate_task(
    goal="Investigate why [specific test/behavior] fails",
    context="""
    Follow systematic-debugging skill:
    1. Read the error message carefully
    2. Reproduce the issue
    3. Trace the data flow to find root cause
    4. Report findings — do NOT fix yet

    Error: [paste full error]
    File: [path to failing code]
    Test command: [exact command]
    """,
    toolsets=['terminal', 'file']
)

配合 test-driven-development

修复 bug 时：

编写复现 bug 的测试（RED）
系统化调试以找到根本原因
修复根本原因（GREEN）
测试证明修复有效并防止回归

实际影响

来自调试会话的数据：

系统化方法：15-30 分钟修复
随机修复方法：2-3 小时的反复试错
首次修复成功率：95% vs 40%
引入的新 bug：接近零 vs 常见

没有捷径。没有猜测。系统化方法永远胜出。

技能元数据​

参考：完整 SKILL.md​

系统化调试

概述​

铁律​

何时使用​

四个阶段​

第一阶段：根本原因调查​

1. 仔细阅读错误信息​

2. 稳定复现​

3. 检查近期变更​

4. 在多组件系统中收集证据​

5. 追踪数据流​

第一阶段完成检查清单​

第二阶段：模式分析​

1. 寻找可行的示例​

2. 与参考实现对比​

3. 识别差异​

4. 理解依赖关系​

第三阶段：假设与测试​

1. 形成单一假设​

2. 最小化测试​

3. 在继续之前验证​

4. 当你不知道时​

第四阶段：实施​

1. 创建失败的测试用例​

2. 实施单一修复​

3. 验证修复​

4. 如果修复无效——三次法则​

5. 如果 3 次或更多修复失败：质疑架构​

危险信号——停止并遵循流程​

常见的合理化借口​

快速参考​

Hermes Agent 集成​

调查工具​

配合 delegate_task​

配合 test-driven-development​

实际影响​

技能元数据

参考：完整 SKILL.md

概述

铁律

何时使用

四个阶段

第一阶段：根本原因调查

1. 仔细阅读错误信息

2. 稳定复现

3. 检查近期变更

4. 在多组件系统中收集证据

5. 追踪数据流

第一阶段完成检查清单

第二阶段：模式分析

1. 寻找可行的示例

2. 与参考实现对比

3. 识别差异

4. 理解依赖关系

第三阶段：假设与测试

1. 形成单一假设

2. 最小化测试

3. 在继续之前验证

4. 当你不知道时

第四阶段：实施

1. 创建失败的测试用例

2. 实施单一修复

3. 验证修复

4. 如果修复无效——三次法则

5. 如果 3 次或更多修复失败：质疑架构

危险信号——停止并遵循流程

常见的合理化借口

快速参考

Hermes Agent 集成

调查工具

配合 delegate_task

配合 test-driven-development

实际影响