跳到主要内容

图像生成

Hermes Agent 可以使用 FAL.ai 的 FLUX 2 Pro 模型,通过 Clarity Upscaler 实现自动 2 倍超分辨率放大,从而生成高质量的图像。

设置

获取 FAL API 密钥

  1. 访问 fal.ai 注册账号
  2. 从您的仪表板生成 API 密钥

配置密钥

# Add to ~/.hermes/.env
FAL_KEY=your-fal-api-key-here

安装客户端库

pip install fal-client
信息

当设置 FAL_KEY 后,图像生成工具将自动可用。无需额外配置工具集。

工作原理

当您要求 Hermes 生成图像时:

  1. 生成 — 您的提示词将发送至 FLUX 2 Pro 模型(fal-ai/flux-2-pro
  2. 超分辨率放大 — 生成的图像将自动使用 Clarity Upscaler(fal-ai/clarity-upscaler)进行 2 倍放大
  3. 交付 — 返回超分辨率后的图像 URL

如果超分辨率因任何原因失败,将自动回退至原始分辨率图像。

使用方法

只需要求 Hermes 创建图像:

Generate an image of a serene mountain landscape with cherry blossoms
Create a portrait of a wise old owl perched on an ancient tree branch
Make me a futuristic cityscape with flying cars and neon lights

参数

image_generate_tool 接受以下参数:

参数默认值范围说明
prompt(必需)所需图像的文字描述
aspect_ratio"landscape"landscape, square, portrait图像宽高比
num_inference_steps501–100去噪步数(越多 = 质量越高,速度越慢)
guidance_scale4.50.1–20.0与提示词的贴合程度
num_images11–4生成图像的数量
output_format"png"png, jpeg图像文件格式
seed(随机)任意整数用于结果可复现的随机种子

宽高比

该工具使用简化的宽高比名称,映射到 FLUX 2 Pro 的图像尺寸:

宽高比映射至适用场景
landscapelandscape_16_9壁纸、横幅、场景图
squaresquare_hd头像、社交媒体帖子
portraitportrait_16_9角色艺术、手机壁纸
提示

您也可以直接使用原始的 FLUX 2 Pro 尺寸预设:square_hdsquareportrait_4_3portrait_16_9landscape_4_3landscape_16_9。还支持最大 2048x2048 的自定义尺寸。

自动超分辨率放大

每张生成的图像都会自动使用 FAL.ai 的 Clarity Upscaler 进行 2 倍放大,设置如下:

设置
放大倍数2x
创造性0.35
相似度0.6
引导尺度4
推理步数18
正面提示词"masterpiece, best quality, highres" + 您的原始提示词
负面提示词"(worst quality, low quality, normal quality:2)"

超分辨率放大器在保留原始构图的同时增强细节和分辨率。如果超分辨率失败(网络问题、速率限制等),将自动返回原始分辨率图像。

示例提示词

以下是一些可尝试的有效提示词:

A candid street photo of a woman with a pink bob and bold eyeliner
Modern architecture building with glass facade, sunset lighting
Abstract art with vibrant colors and geometric patterns
Portrait of a wise old owl perched on ancient tree branch
Futuristic cityscape with flying cars and neon lights

调试

启用图像生成的调试日志:

export IMAGE_TOOLS_DEBUG=true

调试日志将保存至 ./logs/image_tools_debug_<session_id>.json,包含每次生成请求的详细信息、参数、耗时及任何错误。

安全设置

图像生成工具默认禁用安全检查(safety_tolerance: 5,最宽松设置)。此配置在代码级别完成,用户不可调整。

平台交付

生成的图像根据平台不同,交付方式也不同:

平台交付方式
CLI以 Markdown 格式打印图像 URL ![description](url) — 点击可在浏览器中打开
Telegram以图片消息发送,提示词作为标题
Discord图像嵌入消息中
Slack消息中包含图像 URL(Slack 会自动展开)
WhatsApp以媒体消息发送图像
其他平台图像 URL 以纯文本形式发送

代理在响应中使用 MEDIA:<url> 语法,平台适配器会将其转换为适当格式。

限制

  • 需要 FAL API 密钥 — 图像生成将产生 FAL.ai 账户上的 API 费用
  • 无图像编辑功能 — 仅支持文生图,不支持修复或图生图
  • 基于 URL 的交付 — 图像以临时的 FAL.ai URL 返回,不会本地保存。URL 通常在数小时后过期
  • 超分辨率增加延迟 — 自动 2 倍放大步骤会增加处理时间
  • 每请求最多 4 张图像num_images 上限为 4