內置工具參考

本文檔記錄了 Hermes 工具註冊表中的全部 47 個內置工具，按工具集分組。可用性因平臺、憑證和啟用的工具集而異。

快速統計： 10 個瀏覽器工具，4 個文件工具，10 個 RL 工具，4 個 Home Assistant 工具，2 個終端工具，2 個網絡工具，以及其他工具集中共 15 個獨立工具。

MCP 工具

除了內置工具外，Hermes 還可以從 MCP 服務器動態加載工具。MCP 工具會帶有服務器名稱前綴（例如 github_create_issue 表示 github MCP 服務器）。有關配置，請參閱 MCP 集成。

`browser` 工具集

工具	描述	所需環境
`browser_back`	在瀏覽器歷史記錄中返回上一頁。需先調用 `browser_navigate`。	—
`browser_click`	點擊由快照中引用 ID（例如 `@e5`）標識的元素。引用 ID 會在快照輸出的方括號中顯示。需先調用 `browser_navigate` 和 `browser_snapshot`。	—
`browser_console`	獲取當前頁面的瀏覽器控制檯輸出和 JavaScript 錯誤。返回 `console.log/warn/error/info` 消息以及未捕獲的 JS 異常。可用於檢測靜默的 JavaScript 錯誤、失敗的 API 調用和應用程序警告。要求……	—
`browser_get_images`	獲取當前頁面上所有圖像的列表，包含其 URL 和替代文本。適用於查找可使用視覺工具分析的圖像。需先調用 `browser_navigate`。	—
`browser_navigate`	在瀏覽器中導航至指定 URL。初始化會話並加載頁面。必須在調用其他瀏覽器工具前調用。對於簡單的信息檢索，建議優先使用 `web_search` 或 `web_extract`（更快、更便宜）。當需要……時使用瀏覽器工具。	—
`browser_press`	按下鍵盤上的一個鍵。適用於提交表單（回車鍵）、導航（Tab 鍵）或快捷鍵操作。需先調用 `browser_navigate`。	—
`browser_scroll`	按方向滾動頁面。用於顯示當前視口下方或上方可能存在的更多內容。需先調用 `browser_navigate`。	—
`browser_snapshot`	獲取當前頁面可訪問性樹的文本快照。返回帶有引用 ID（如 `@e1`, `@e2`）的可交互元素，供 `browser_click` 和 `browser_type` 使用。`full=false`（默認）：緊湊視圖，僅包含可交互元素。`full=true`：完整……	—
`browser_type`	向由引用 ID 標識的輸入字段中輸入文本。先清空字段，再輸入新文本。需先調用 `browser_navigate` 和 `browser_snapshot`。	—
`browser_vision`	對當前頁面進行截圖，並使用視覺 AI 進行分析。當需要從視覺上理解頁面內容時使用——尤其適用於驗證碼、視覺驗證挑戰、複雜佈局，或當文本快照……	—

`clarify` 工具集

工具	描述	所需環境
`clarify`	在需要澄清、反饋或決策才能繼續時向用戶提問。支持兩種模式：1. 多選——提供最多 4 個選項。用戶可選擇其一，或通過第 5 個“其他”選項輸入自定義答案。2.…	—

`code_execution` 工具集

工具	描述	所需環境
`execute_code`	運行可程序化調用 Hermes 工具的 Python 腳本。當需要執行 3 次以上工具調用，並在調用之間進行邏輯處理，或需要在進入上下文前對大型工具輸出進行過濾/歸約，或需要條件分支（……	—

`cronjob` 工具集

工具	描述	所需環境
`cronjob`	統一的定時任務管理器。使用 `action="create"`、`"list"`、`"update"`、`"pause"`、`"resume"`、`"run"` 或 `"remove"` 來管理任務。支持帶有 1 個或多個附加技能的技能驅動任務，且 `skills=[]` 在更新時會清除已附加的技能。Cron 任務在全新會話中運行，不包含當前聊天上下文。	—

`delegation` 工具集

工具	描述	所需環境
`delegate_task`	啟動一個或多個子 Agent 在隔離上下文中處理任務。每個子 Agent 擁有獨立的對話、終端會話和工具集。僅返回最終摘要——中間工具結果永遠不會進入你的上下文窗口。兩個……	—

`file` 工具集

工具	描述	需要環境
`patch`	對文件進行精準的查找與替換編輯。在終端中應使用此工具替代 sed/awk。採用模糊匹配（9種策略），因此微小的空白/縮進差異不會導致失敗。返回統一的 diff 格式。編輯後自動運行語法檢查…	—
`read_file`	以行號和分頁方式讀取文本文件。在終端中應使用此工具替代 cat/head/tail。輸出格式：'LINE_NUM\|CONTENT'。若未找到文件，會建議相似的文件名。對於大文件，可使用 offset 和 limit。注意：無法讀取圖片文件…	—
`search_files`	搜索文件內容或按文件名查找文件。在終端中應使用此工具替代 grep/rg/find/ls。基於 ripgrep，比 shell 原生命令更快。內容搜索（target='content'）：在文件內部進行正則搜索。輸出模式：完整匹配並顯示行號…	—
`write_file`	將內容寫入文件，完全替換原有內容。在終端中應使用此工具替代 echo/cat heredoc。自動創建父目錄。會完全覆蓋整個文件——如需局部編輯，請使用 'patch'。	—

`homeassistant` 工具集

工具	描述	需要環境
`ha_call_service`	調用 Home Assistant 服務以控制設備。使用 `ha_list_services` 查看各域的可用服務及其參數。	—
`ha_get_state`	獲取單個 Home Assistant 實體的詳細狀態，包括所有屬性（亮度、顏色、溫度設定點、傳感器讀數等）。	—
`ha_list_entities`	列出 Home Assistant 實體。可選擇按域（light、switch、climate、sensor、binary_sensor、cover、fan 等）或區域名稱（living room、kitchen、bedroom 等）過濾。	—
`ha_list_services`	列出可用的 Home Assistant 服務（操作），用於設備控制。顯示每種設備類型可執行的操作及其接受的參數。使用此工具可發現通過 `ha_list_entities` 找到的設備如何被控制。	—

備註

Honcho 工具（honcho_conclude、honcho_context、honcho_profile、honcho_search）已不再內置。它們可通過 Honcho 記憶提供者插件在 plugins/memory/honcho/ 路徑下獲取。詳見插件以瞭解安裝與使用方法。

`image_gen` 工具集

工具	描述	需要環境
`image_generate`	使用 FLUX 2 Pro 模型根據文本提示生成高質量圖像，並自動進行 2x 放大。生成細節豐富、具有藝術性的圖像，並自動放大以獲得高分辨率效果。返回單個放大後的圖像 URL。使用…	FAL_KEY

`memory` 工具集

工具	描述	需要環境
`memory`	將重要信息保存到持久記憶中，可在會話間持續保留。你的記憶會在會話開始時出現在系統提示中——這是你記住用戶和環境信息的方式。何時使用…	—

`messaging` 工具集

工具	描述	需要環境
`send_message`	向連接的消息平臺發送消息，或列出可用目標。重要提示：當用戶要求發送至特定頻道或人員（而非僅平臺名稱）時，請先調用 `send_message(action='list')` 以查看可用目標…	—

`moa` 工具集

工具	描述	需要環境
`mixture_of_agents`	將複雜問題通過多個前沿 LLM 協同路由處理。最多發起 5 次 API 調用（4 個參考模型 + 1 個聚合器），投入最大推理資源——僅在真正困難的問題上使用。適用於：複雜數學、高級算法…	OPENROUTER_API_KEY

`rl` 工具集

工具	描述	所需環境
`rl_check_status`	獲取訓練運行的狀態和指標。速率限制：同一運行的檢查之間強制最小間隔為30分鐘。返回WandB指標：step、state、reward_mean、loss、percent_correct。	TINKER_API_KEY, WANDB_API_KEY
`rl_edit_config`	更新配置字段。請先使用 `rl_get_current_config()` 查看所選環境的所有可用字段。每個環境具有不同的可配置選項。基礎設施設置（tokenizer、URL、lora_rank、learning_rate…	TINKER_API_KEY, WANDB_API_KEY
`rl_get_current_config`	獲取當前環境的配置。僅返回可修改的字段：group_size、max_token_length、total_steps、steps_per_eval、use_wandb、wandb_name、max_num_workers。	TINKER_API_KEY, WANDB_API_KEY
`rl_get_results`	獲取已完成訓練運行的最終結果和指標。返回最終指標以及訓練權重的路徑。	TINKER_API_KEY, WANDB_API_KEY
`rl_list_environments`	列出所有可用的RL環境。返回環境名稱、路徑和描述。提示：使用文件工具讀取 file_path 以瞭解每個環境的工作方式（驗證器、數據加載、獎勵機制）。	TINKER_API_KEY, WANDB_API_KEY
`rl_list_runs`	列出所有訓練運行（正在進行和已完成）及其狀態。	TINKER_API_KEY, WANDB_API_KEY
`rl_select_environment`	為訓練選擇一個RL環境。加載環境的默認配置。選擇後，使用 `rl_get_current_config()` 查看設置，並使用 `rl_edit_config()` 進行修改。	TINKER_API_KEY, WANDB_API_KEY
`rl_start_training`	使用當前環境和配置啟動新的RL訓練運行。大多數訓練參數（lora_rank、learning_rate等）是固定的。使用 `rl_edit_config()` 設置 group_size、batch_size、wandb_project 後再啟動。警告：訓練…	TINKER_API_KEY, WANDB_API_KEY
`rl_stop_training`	停止正在運行的訓練任務。如果指標表現不佳、訓練停滯不前，或希望嘗試不同設置時使用。	TINKER_API_KEY, WANDB_API_KEY
`rl_test_inference`	對任意環境進行快速推理測試。使用OpenRouter運行幾輪推理+評分。默認：3步 × 16次完成 = 每模型48次rollouts，測試3個模型 = 共144次。測試環境加載、提示構造、推理…	TINKER_API_KEY, WANDB_API_KEY

`session_search` 工具集

工具	描述	所需環境
`session_search`	搜索過往對話形成的長期記憶。這相當於回憶功能：所有歷史 Session 都可檢索，此工具會總結當時發生的內容。當用戶說“我們之前做過這個”、“記得嗎”、“上次……”時，請主動使用此工具。	—

`skills` 工具集

工具	描述	所需環境
`skill_manage`	管理技能（創建、更新、刪除）。技能是您的程序性記憶——用於重複性任務類型的可重用方法。新技能將保存至 ~/.hermes/skills/；現有技能可在任意位置修改。操作：create（完整SKILL.md文件）、update、delete。	—
`skill_view`	技能可用於加載特定任務和工作流的信息，以及腳本和模板。可加載技能的完整內容，或訪問其關聯文件（參考文檔、模板、腳本）。首次調用返回 SKILL.md 內容及一個…	—
`skills_list`	列出可用技能（名稱 + 描述）。使用 `skill_view(name)` 加載完整內容。	—

`terminal` 工具集

工具	描述	所需環境
`process`	管理使用 `terminal(background=true)` 啟動的後臺進程。操作：'list'（顯示所有進程）、'poll'（檢查狀態 + 新輸出）、'log'（分頁顯示完整輸出）、'wait'（阻塞直到完成或超時）、'kill'（終止進程）、'write'（發送輸入）	—
`terminal`	在Linux環境中執行shell命令。文件系統在調用間保持持久。設置 `background=true` 用於長時間運行的服務。設置 `notify_on_complete=true`（配合 `background=true`）可在進程完成後自動通知，無需輪詢。切勿使用 cat/head/tail —— 請使用 `read_file`。切勿使用 grep/rg/find —— 請使用 `search_files`。	—

`todo` 工具集

工具	描述	所需環境
`todo`	管理當前會話的任務列表。適用於包含3個以上步驟的複雜任務，或當用戶提供多個任務時。不帶參數調用以讀取當前列表。寫入：- 提供 'todos' 數組以創建/更新項目 - merge=…	—

`vision` 工具集

工具	描述	所需環境
`vision_analyze`	使用AI視覺分析圖像。提供全面的描述並回答關於圖像內容的具體問題。	—

`web` 工具集

工具	描述	所需環境
`web_search`	在任何主題上搜索網絡信息。返回最多 5 個相關結果，包含標題、URL 和描述。	EXA_API_KEY 或 PARALLEL_API_KEY 或 FIRECRAWL_API_KEY 或 TAVILY_API_KEY
`web_extract`	從網頁 URL 中提取內容。以 Markdown 格式返回頁面內容。也支持 PDF URL —— 直接傳入 PDF 鏈接，系統會將其轉換為 Markdown 文本。小於 5000 字符的頁面返回完整 Markdown；較大頁面則由 LLM 進行摘要。	EXA_API_KEY 或 PARALLEL_API_KEY 或 FIRECRAWL_API_KEY 或 TAVILY_API_KEY

`tts` 工具集

工具	描述	所需環境
`text_to_speech`	將文本轉換為語音音頻。返回一個 `MEDIA:` 路徑，平臺會據此將音頻作為語音消息發送。在 Telegram 中會顯示為語音消息氣泡，在 Discord/WhatsApp 中會作為音頻附件發送。在 CLI 模式下，保存至 ~/voice-memos/。語音和提供方…	—

browser 工具集​

clarify 工具集​

code_execution 工具集​

cronjob 工具集​

delegation 工具集​

file 工具集​

homeassistant 工具集​

image_gen 工具集​

memory 工具集​

messaging 工具集​

moa 工具集​

rl 工具集​

session_search 工具集​

skills 工具集​

terminal 工具集​

todo 工具集​

vision 工具集​

web 工具集​

tts 工具集​