Ascii Video
ASCII 艺术视频制作流水线 — 支持任意格式。将视频/音频/图像/生成式输入转换为彩色 ASCII 字符视频输出(MP4、GIF、图像序列)。涵盖:视频转 ASCII、音频响应式音乐可视化、生成式 ASCII 艺术动画、混合视频+音频响应、文本/歌词叠加、实时终端渲染。当用户请求以下内容时使用:ASCII 视频、文本艺术视频、终端风格视频、字符艺术动画、复古文本可视化、ASCII 音频可视化器、将视频转换为 ASCII 艺术、矩阵风格效果,或任何动态 ASCII 输出。
技能元数据
| 来源 | 捆绑(默认安装) |
| 路径 | skills/creative/ascii-video |
参考:完整 SKILL.md
以下是 Hermes 在触发此技能时加载的完整技能定义。这是技能激活时代理看到的指令。
ASCII 视频制作流水线
创意标准
这是视觉艺术。ASCII 字符是媒介;电影是标准。
在编写第一行代码之前,阐明创意概念。情绪是什么?它讲述了怎样的视觉故事?是什么让这个项目不同于其他所有 ASCII 视频?用户的提示只是一个起点 — 要以创意雄心去诠释它,而不是字面转录。
首次渲染必须卓越。 输出必须在视觉上引人注目,无需经过多轮修改。如果某些内容看起来平庸、平淡或像“AI 生成的 ASCII 艺术”,那就是错误的 — 在交付之前重新思考创意概念。
超越参考词汇。 参考中的效果目录、着色器预设和调色板库只是起始词汇。对于每个项目,都要组合、修改并发明新的模式。目录是颜料盘 — 你才是作画者。
主动发挥创意。 当项目需要时,扩展技能的词汇表。如果参考资料中没有满足愿景所需的内容,那就构建它。至少包含一个用户未要求但会欣赏的视觉时刻 — 一个过渡、一种效果、一种提升整体作品的色彩选择。
** cohesive 美学优于技术正确性。** 视频中的所有场景必须通过统一的视觉语言相互连接 — 共享的色温、相关的字符调色板、一致的运动词汇。一个技术上正确但每个场景使用随机不同效果的视频是美学上的失败。
密集、分层、深思熟虑。 每一帧都应值得观看。绝不使用纯黑背景。始终采用多网格构图。始终进行每场景变化。始终使用有意为之的色彩。
模式
| 模式 | 输入 | 输出 | 参考 |
|---|---|---|---|
| 视频转 ASCII | 视频文件 | 源素材的 ASCII 再现 | references/inputs.md § 视频采样 |
| 音频响应式 | 音频文件 | 由音频特征驱动的生成式视觉效果 | references/inputs.md § 音频分析 |
| 生成式 | 无(或种子参数) | 程序化 ASCII 动画 | references/effects.md |
| 混合式 | 视频 + 音频 | 带有音频响应叠加层的 ASCII 视频 | 两个输入参考 |
| 歌词/文本 | 音频 + 文本/SRT | 带视觉效果的定时文本 | references/inputs.md § 文本/歌词 |
| TTS 旁白 | 文本引用 + TTS API | 带有打字文本的叙述性证言/引用视频 | references/inputs.md § TTS 集成 |
技术栈
每个项目使用单个自包含的 Python 脚本。无需 GPU。
| 层级 | 工具 | 用途 |
|---|---|---|
| 核心 | Python 3.10+, NumPy | 数学、数组运算、向量化效果 |
| 信号 | SciPy | FFT、峰值检测(音频模式) |
| 成像 | Pillow (PIL) | 字体光栅化、帧解码、图像 I/O |
| 视频 I/O | ffmpeg (CLI) | 解码输入、编码输出、混流音频 |
| 并行 | concurrent.futures | 用于批量/片段渲染的 N 个工作线程 |
| TTS | ElevenLabs API(可选) | 生成旁白片段 |
| 可选 | OpenCV | 视频帧采样、边缘检测 |
流水线架构
每种模式都遵循相同的 6 阶段流水线:
INPUT → ANALYZE → SCENE_FN → TONEMAP → SHADE → ENCODE
- INPUT — 加载/解码源材料(视频帧、音频样本、图像或无)
- ANALYZE — 提取每帧特征(音频频段、视频亮度/边缘、运动矢量)
- SCENE_FN — 场景函数渲染到像素画布(
uint8 H,W,3)。通过_render_vf()+ 像素混合模式组合多个字符网格。参见references/composition.md - TONEMAP — 基于百分位数的自适应亮度归一化。参见
references/composition.md§ 自适应色调映射 - SHADE — 通过
ShaderChain+FeedbackBuffer进行后处理。参见references/shaders.md - ENCODE — 将原始 RGB 帧管道传输至 ffmpeg 以进行 H.264/GIF 编码
创意指导
美学维度
| 维度 | 选项 | 参考 |
|---|---|---|
| 字符调色板 | 密度渐变、块元素、符号、脚本(片假名、希腊字母、卢恩文字、盲文)、项目特定 | architecture.md § Palettes |
| 色彩策略 | HSV、OKLAB/OKLCH、离散 RGB 调色板、自动生成和谐色、单色、色温 | architecture.md § Color System |
| 背景纹理 | 正弦场、fBM 噪声、域扭曲、Voronoi、反应扩散、细胞自动机、视频 | effects.md |
| 主要特效 | 圆环、螺旋、隧道、漩涡、波浪、干涉、极光、火焰、SDF、奇异吸引子 | effects.md |
| 粒子 | 火花、雪花、雨滴、气泡、卢恩文字、轨道、群集鸟群(boids)、流场跟随者、拖尾 | effects.md § Particles |
| 着色器氛围 | 复古 CRT、洁净现代、故障艺术、电影感、梦幻、工业、迷幻 | shaders.md |
| 网格密度 | xs(8px) 至 xxl(40px),每层混合使用 | architecture.md § Grid System |
| 坐标空间 | 笛卡尔、极坐标、平铺、旋转、鱼眼、莫比乌斯、域扭曲 | effects.md § Transforms |
| 反馈 | 缩放隧道、彩虹拖尾、幽灵回声、旋转曼荼罗、色彩演变 | composition.md § Feedback |
| 遮罩 | 圆形、环形、渐变、文本模板、动态光圈/擦除/溶解 | composition.md § Masking |
| 过渡 | 交叉淡入淡出、擦除、溶解、故障切割、光圈、基于遮罩的揭示 | shaders.md § Transitions |
各部分变化
切勿在整个视频中沿用相同的配置。对于每个部分/场景:
- 不同的背景特效(或组合 2-3 种)
- 不同的字符调色板(匹配氛围)
- 不同的色彩策略(或至少使用不同的色调)
- 变化着色器强度(高峰时增加辉光,安静时增加颗粒感)
- 如果启用了粒子,则使用不同的粒子类型
项目特定创新
为每个项目至少发明以下一项:
- 匹配主题的自定义字符调色板
- 自定义背景特效(组合/修改现有构建模块)
- 自定义色彩调色板(匹配品牌/氛围的离散 RGB 集合)
- 自定义粒子字符集
- 新颖的场景过渡或视觉时刻
不要仅仅从目录中挑选。目录是词汇——你要创作的是诗歌。
工作流
步骤 1:创意愿景
在编写任何代码之前,阐明创意概念:
- 情绪/氛围:观众应该感受到什么?充满活力、冥想、混乱、优雅、不祥?
- 视觉故事:在持续时间内发生了什么?建立张力?转变?溶解?
- 色彩世界:暖色/冷色?单色?霓虹?大地色系?主导色调是什么?
- 字符纹理:密集数据?稀疏星星?有机点状?几何块状?
- 本项目的独特之处:使这个项目独一无二的那一点是什么?
- 情感弧线:场景如何推进?以活力开场,逐步推向高潮,最后解决?
将用户的提示映射到美学选择上。“轻松的 lo-fi 可视化器”与“故障赛博朋克数据流”需要完全不同的处理方式。
步骤 2:技术设计
- 模式 — 上述 6 种模式中的哪一种
- 分辨率 — 横向 1920x1080(默认),纵向 1080x1920,正方形 1080x1080 @ 24fps
- 硬件检测 — 自动检测核心数/RAM,设置质量配置文件。参见
references/optimization.md - 部分 — 将时间戳映射到场景功能,每个场景拥有自己的特效/调色板/色彩/着色器配置
- 输出格式 — MP4(默认)、GIF(640x360 @ 15fps)、PNG 序列
步骤 3:构建脚本
单个 Python 文件。组件(含参考):
- 硬件检测 + 质量配置文件 —
references/optimization.md - 输入加载器 — 依赖于模式;
references/inputs.md - 特征分析器 — 音频 FFT、视频亮度或合成数据
- 网格 + 渲染器 — 具有位图缓存的多密度网格;
references/architecture.md - 字符调色板 — 每个项目多个;
references/architecture.md§ Palettes - 色彩系统 — HSV + 离散 RGB + 和谐色生成;
references/architecture.md§ Color - 场景函数 — 每个返回
canvas (uint8 H,W,3);references/scenes.md - 色调映射 — 自适应亮度归一化;
references/composition.md - 着色器管道 —
ShaderChain+FeedbackBuffer;references/shaders.md - 场景表 + 调度器 — 时间 → 场景函数 + 配置;
references/scenes.md - 并行编码器 — N 个工作线程剪辑渲染,使用 ffmpeg 管道
- 主程序 — 协调完整管道
步骤 4:质量验证
- 先测试帧:在完整渲染之前,渲染关键时间戳处的单帧
- 亮度检查:所有 ASCII 内容的
canvas.mean() > 8。如果过暗,降低伽马值 - 视觉连贯性:所有场景是否感觉属于同一个视频?
- 创意愿景检查:输出是否与步骤 1 中的概念匹配?如果看起来千篇一律,请返回修改
关键实现说明
亮度 — 使用 tonemap(),而非线性乘法器
这是头号视觉问题。黑色背景上的 ASCII 天生较暗。切勿使用 canvas * N 乘法器 — 它们会导致高光裁剪。使用自适应色调映射:
def tonemap(canvas, gamma=0.75):
f = canvas.astype(np.float32)
lo, hi = np.percentile(f[::4, ::4], [1, 99.5])
if hi - lo < 10: hi = lo + 10
f = np.clip((f - lo) / (hi - lo), 0, 1) ** gamma
return (f * 255).astype(np.uint8)
管道:scene_fn() → tonemap() → FeedbackBuffer → ShaderChain → ffmpeg
每场景伽马值:默认 0.75,曝光过度(solarize)0.55,色调分离(posterize)0.50,明亮场景 0.85。对暗色图层使用 screen 混合模式(而非 overlay)。
字体单元格高度
macOS Pillow:textbbox() 返回的高度不正确。请使用 font.getmetrics():cell_height = ascent + descent。参见 references/troubleshooting.md。
ffmpeg 管道死锁
对于长时间运行的 ffmpeg,切勿使用 stderr=subprocess.PIPE —— 缓冲区在填满 64KB 后会导致死锁。请重定向到文件。参见 references/troubleshooting.md。
字体兼容性
并非所有 Unicode 字符都能在所有字体中渲染。在初始化时验证调色板 —— 渲染每个字符,检查是否为空白输出。参见 references/troubleshooting.md。
每片段架构
对于分段视频(语录、场景、章节),将每个部分渲染为单独的片段文件,以实现并行渲染和选择性重新渲染。参见 references/scenes.md。
性能目标
| 组件 | 预算 |
|---|---|
| 特征提取 | 1-5ms |
| 效果函数 | 2-15ms |
| 字符渲染 | 80-150ms(瓶颈) |
| 着色器管道 | 5-25ms |
| 总计 | ~100-200ms/帧 |
参考资料
| 文件 | 内容 |
|---|---|
references/architecture.md | 网格系统、分辨率预设、字体选择、字符调色板(20+)、色彩系统(HSV + OKLAB + 离散 RGB + 和谐生成)、_render_vf() 辅助函数、GridLayer 类 |
references/composition.md | 像素混合模式(20 种模式)、blend_canvas()、多网格合成、自适应 tonemap()、FeedbackBuffer、PixelBlendStack、蒙版/模板系统 |
references/effects.md | 效果构建模块:值场生成器、色相场、噪声/fBM/域扭曲、沃罗诺伊图、反应扩散、细胞自动机、SDF(有符号距离场)、奇异吸引子、粒子系统、坐标变换、时间连贯性 |
references/shaders.md | ShaderChain、_apply_shader_step() 分发、38 种着色器目录、音频响应缩放、过渡、色调预设、输出格式编码、终端渲染 |
references/scenes.md | 场景协议、Renderer 类、SCENES 表、render_clip()、节拍同步剪辑、并行渲染、设计模式(图层层级、方向弧、视觉隐喻、构图技巧)、各种复杂度级别的完整场景示例、场景设计检查清单 |
references/inputs.md | 音频分析(FFT、频段、节拍)、视频采样、图像转换、文本/歌词、TTS 集成(ElevenLabs、声音分配、音频混合) |
references/optimization.md | 硬件检测、质量配置文件、向量化模式、并行渲染、内存管理、性能预算 |
references/troubleshooting.md | NumPy 广播陷阱、混合模式缺陷、多进程/pickling、亮度诊断、ffmpeg 问题、字体问题、常见错误 |
创意发散(仅在用户请求实验性/创意/独特输出时使用)
如果用户要求创意、实验性、令人惊讶或非传统的输出,请选择最合适的策略,并在生成代码之前逐步推理。
- 强制关联 — 当用户需要跨领域灵感时(“让它看起来有机”、“工业美学”)
- 概念融合 — 当用户指名要组合两件事物时(“海洋遇见音乐”、“空间 + 书法”)
- 斜向策略 — 当用户完全开放时(“给我惊喜”、“一些我从未见过的东西”)
强制关联
- 选择一个与视觉目标无关的领域(天气系统、微生物学、建筑学、流体动力学、纺织编织)
- 列出其核心视觉/结构元素(侵蚀 → 逐渐显露;有丝分裂 → 分裂复制;编织 → 互锁图案)
- 将这些元素映射到 ASCII 字符和动画模式上
- 综合 — “侵蚀”或“结晶”在字符网格中看起来是什么样的?
概念融合
- 命名两个不同的视觉/概念空间(例如,海浪 + 乐谱)
- 映射对应关系(波峰 = 高音,波谷 = 休止符,泡沫 = 断奏)
- 选择性融合 — 保留最有趣的映射,丢弃牵强的映射
- 开发仅存在于融合中的涌现属性
斜向策略
- 抽取一条:“将错误视为隐藏的意图予以尊重” / “使用一个旧想法” / “你最好的朋友会怎么做?” / “强调缺陷” / “将其颠倒” / “只取部分,而非整体” / “反转”
- 针对当前的 ASCII 动画挑战解释该指令
- 在编写代码之前,将这种横向洞察应用于视觉设计