跳到主要內容

Songsee

通過命令行界面 (CLI) 從音頻文件生成頻譜圖和音頻特徵可視化(如梅爾頻譜、色度圖、MFCC、節奏圖等)。適用於音頻分析、音樂製作調試和可視化文檔記錄。

技能元數據

來源捆綁(默認安裝)
路徑skills/media/songsee
版本1.0.0
作者community
許可證MIT
標籤Audio, Visualization, Spectrogram, Music, Analysis

參考:完整 SKILL.md

信息

以下是 Hermes 在觸發此技能時加載的完整技能定義。這是技能激活時代理所看到的指令。

songsee

從音頻文件生成頻譜圖和多面板音頻特徵可視化。

前置條件

需要 Go

go install github.com/steipete/songsee/cmd/songsee@latest

可選:ffmpeg 用於支持 WAV/MP3 以外的格式。

快速開始

# Basic spectrogram
songsee track.mp3

# Save to specific file
songsee track.mp3 -o spectrogram.png

# Multi-panel visualization grid
songsee track.mp3 --viz spectrogram,mel,chroma,hpss,selfsim,loudness,tempogram,mfcc,flux

# Time slice (start at 12.5s, 8s duration)
songsee track.mp3 --start 12.5 --duration 8 -o slice.jpg

# From stdin
cat track.mp3 | songsee - --format png -o out.png

可視化類型

使用 --viz 配合逗號分隔的值:

類型描述
spectrogram標準頻率頻譜圖
mel梅爾刻度頻譜圖
chroma音高類別分佈
hpss諧波/打擊樂分離
selfsim自相似矩陣
loudness隨時間變化的響度
tempogram速度估計
mfcc梅爾頻率倒譜系數
flux頻譜通量(起始點檢測)

多個 --viz 類型將在單個圖像中以網格形式渲染。

常用標誌

標誌描述
--viz可視化類型(逗號分隔)
--style調色板:classic, magma, inferno, viridis, gray
--width / --height輸出圖像尺寸
--window / --hopFFT 窗口和跳數大小
--min-freq / --max-freq頻率範圍過濾器
--start / --duration音頻的時間切片
--format輸出格式:jpgpng
-o輸出文件路徑

注意事項

  • WAV 和 MP3 為原生解碼;其他格式需要 ffmpeg
  • 輸出圖像可使用 vision_analyze 進行檢查,以實現自動化音頻分析
  • 適用於比較音頻輸出、調試合成器或記錄音頻處理流程