Songsee
通过命令行界面 (CLI) 从音频文件生成频谱图和音频特征可视化(如梅尔频谱、色度图、MFCC、节奏图等)。适用于音频分析、音乐制作调试和可视化文档记录。
技能元数据
| 来源 | 捆绑(默认安装) |
| 路径 | skills/media/songsee |
| 版本 | 1.0.0 |
| 作者 | community |
| 许可证 | MIT |
| 标签 | Audio, Visualization, Spectrogram, Music, Analysis |
参考:完整 SKILL.md
信息
以下是 Hermes 在触发此技能时加载的完整技能定义。这是技能激活时代理所看到的指令。
songsee
从音频文件生成频谱图和多面板音频特征可视化。
前置条件
需要 Go:
go install github.com/steipete/songsee/cmd/songsee@latest
可选:ffmpeg 用于支持 WAV/MP3 以外的格式。
快速开始
# Basic spectrogram
songsee track.mp3
# Save to specific file
songsee track.mp3 -o spectrogram.png
# Multi-panel visualization grid
songsee track.mp3 --viz spectrogram,mel,chroma,hpss,selfsim,loudness,tempogram,mfcc,flux
# Time slice (start at 12.5s, 8s duration)
songsee track.mp3 --start 12.5 --duration 8 -o slice.jpg
# From stdin
cat track.mp3 | songsee - --format png -o out.png
可视化类型
使用 --viz 配合逗号分隔的值:
| 类型 | 描述 |
|---|---|
spectrogram | 标准频率频谱图 |
mel | 梅尔刻度频谱图 |
chroma | 音高类别分布 |
hpss | 谐波/打击乐分离 |
selfsim | 自相似矩阵 |
loudness | 随时间变化的响度 |
tempogram | 速度估计 |
mfcc | 梅尔频率倒谱系数 |
flux | 频谱通量(起始点检测) |
多个 --viz 类型将在单个图像中以网格形式渲染。
常用标志
| 标志 | 描述 |
|---|---|
--viz | 可视化类型(逗号分隔) |
--style | 调色板:classic, magma, inferno, viridis, gray |
--width / --height | 输出图像尺寸 |
--window / --hop | FFT 窗口和跳数大小 |
--min-freq / --max-freq | 频率范围过滤器 |
--start / --duration | 音频的时间切片 |
--format | 输出格式:jpg 或 png |
-o | 输出文件路径 |
注意事项
- WAV 和 MP3 为原生解码;其他格式需要
ffmpeg - 输出图像可使用
vision_analyze进行检查,以实现自动化音频分析 - 适用于比较音频输出、调试合成器或记录音频处理流程