跳到主要内容

Songsee

通过命令行界面 (CLI) 从音频文件生成频谱图和音频特征可视化(如梅尔频谱、色度图、MFCC、节奏图等)。适用于音频分析、音乐制作调试和可视化文档记录。

技能元数据

来源捆绑(默认安装)
路径skills/media/songsee
版本1.0.0
作者community
许可证MIT
标签Audio, Visualization, Spectrogram, Music, Analysis

参考:完整 SKILL.md

信息

以下是 Hermes 在触发此技能时加载的完整技能定义。这是技能激活时代理所看到的指令。

songsee

从音频文件生成频谱图和多面板音频特征可视化。

前置条件

需要 Go

go install github.com/steipete/songsee/cmd/songsee@latest

可选:ffmpeg 用于支持 WAV/MP3 以外的格式。

快速开始

# Basic spectrogram
songsee track.mp3

# Save to specific file
songsee track.mp3 -o spectrogram.png

# Multi-panel visualization grid
songsee track.mp3 --viz spectrogram,mel,chroma,hpss,selfsim,loudness,tempogram,mfcc,flux

# Time slice (start at 12.5s, 8s duration)
songsee track.mp3 --start 12.5 --duration 8 -o slice.jpg

# From stdin
cat track.mp3 | songsee - --format png -o out.png

可视化类型

使用 --viz 配合逗号分隔的值:

类型描述
spectrogram标准频率频谱图
mel梅尔刻度频谱图
chroma音高类别分布
hpss谐波/打击乐分离
selfsim自相似矩阵
loudness随时间变化的响度
tempogram速度估计
mfcc梅尔频率倒谱系数
flux频谱通量(起始点检测)

多个 --viz 类型将在单个图像中以网格形式渲染。

常用标志

标志描述
--viz可视化类型(逗号分隔)
--style调色板:classic, magma, inferno, viridis, gray
--width / --height输出图像尺寸
--window / --hopFFT 窗口和跳数大小
--min-freq / --max-freq频率范围过滤器
--start / --duration音频的时间切片
--format输出格式:jpgpng
-o输出文件路径

注意事项

  • WAV 和 MP3 为原生解码;其他格式需要 ffmpeg
  • 输出图像可使用 vision_analyze 进行检查,以实现自动化音频分析
  • 适用于比较音频输出、调试合成器或记录音频处理流程