生物信息学
通往来自 bioSkills 和 ClawBio 的 400+ 生物信息学技能的网关。涵盖基因组学、转录组学、单细胞分析、变异调用、药物基因组学、宏基因组学、结构生物学等。按需获取领域特定的参考资料。
技能元数据
| 来源 | 可选 — 使用 hermes skills install official/research/bioinformatics 安装 |
| 路径 | optional-skills/research/bioinformatics |
| 版本 | 1.0.0 |
| 平台 | linux, macos |
| 标签 | bioinformatics, genomics, sequencing, biology, research, science |
参考:完整 SKILL.md
以下是 Hermes 在触发此技能时加载的完整技能定义。这是技能激活时代理所看到的指令。
生物信息学技能网关
当被问及生物信息学、基因组学、测序、变异调用、基因表达、单细胞分析、蛋白质结构、药物基因组学、宏基因组学、系统发育或任何计算生物学任务时使用。
此技能是通往两个开源生物信息学技能库的网关。它不捆绑数百个特定领域的技能,而是对它们进行索引并按需获取所需内容。
来源
◆ bioSkills — 385 个参考技能(代码模式、参数指南、决策树) 仓库:https://github.com/GPTomics/bioSkills 格式:每个主题的 SKILL.md 包含代码示例。支持 Python/R/CLI。
◆ ClawBio — 33 个可运行的流水线技能(可执行脚本、可复现性捆绑包) 仓库:https://github.com/ClawBio/ClawBio 格式:带有演示的 Python 脚本。每次分析导出 report.md + commands.sh + environment.yml。
如何获取和使用技能
- 从下面的索引中识别领域和技能名称。
- 克隆相关仓库(浅克隆以节省时间):
# bioSkills (reference material)
git clone --depth 1 https://github.com/GPTomics/bioSkills.git /tmp/bioSkills
# ClawBio (runnable pipelines)
git clone --depth 1 https://github.com/ClawBio/ClawBio.git /tmp/ClawBio - 阅读特定技能:
# bioSkills — each skill is at: <category>/<skill-name>/SKILL.md
cat /tmp/bioSkills/variant-calling/gatk-variant-calling/SKILL.md
# ClawBio — each skill is at: skills/<skill-name>/
cat /tmp/ClawBio/skills/pharmgx-reporter/README.md - 将获取的技能作为参考资料遵循。这些不是 Hermes 格式的技能 — 将它们视为专家领域指南。它们包含正确的参数、适当的工具标志和经过验证的流水线。
按领域划分的技能索引
序列基础
bioSkills: sequence-io/ — read-sequences, write-sequences, format-conversion, batch-processing, compressed-files, fastq-quality, filter-sequences, paired-end-fastq, sequence-statistics sequence-manipulation/ — seq-objects, reverse-complement, transcription-translation, motif-search, codon-usage, sequence-properties, sequence-slicing ClawBio: seq-wrangler — 序列 QC、比对和 BAM 处理(封装 FastQC、BWA、SAMtools)
读段 QC 与比对
bioSkills: read-qc/ — quality-reports, fastp-workflow, adapter-trimming, quality-filtering, umi-processing, contamination-screening, rnaseq-qc read-alignment/ — bwa-alignment, star-alignment, hisat2-alignment, bowtie2-alignment alignment-files/ — sam-bam-basics, alignment-sorting, alignment-filtering, bam-statistics, duplicate-handling, pileup-generation
变异调用与注释
bioSkills: variant-calling/ — gatk-variant-calling, deepvariant, variant-calling (bcftools), joint-calling, structural-variant-calling, filtering-best-practices, variant-annotation, variant-normalization, vcf-basics, vcf-manipulation, vcf-statistics, consensus-sequences, clinical-interpretation ClawBio: vcf-annotator — VEP + ClinVar + gnomAD 注释,具备祖先感知上下文 variant-annotation — 变异注释流水线
差异表达(Bulk RNA-seq)
bioSkills: differential-expression/ — deseq2-basics, edger-basics, batch-correction, de-results, de-visualization, timeseries-de rna-quantification/ — alignment-free-quant (Salmon/kallisto), featurecounts-counting, tximport-workflow, count-matrix-qc expression-matrix/ — counts-ingest, gene-id-mapping, metadata-joins, sparse-handling ClawBio: rnaseq-de — 完整的 DE 流水线,包含 QC、标准化和可视化 diff-visualizer — 针对 DE 结果的丰富可视化和报告
单细胞 RNA-seq
bioSkills: single-cell/ — preprocessing, clustering, batch-integration, cell-annotation, cell-communication, doublet-detection, markers-annotation, trajectory-inference, multimodal-integration, perturb-seq, scatac-analysis, lineage-tracing, metabolite-communication, data-io ClawBio: scrna-orchestrator — 完整 Scanpy 流水线(QC、聚类、标记物、注释) scrna-embedding — 基于 scVI 的潜在嵌入和批次整合
空间转录组学
bioSkills: spatial-transcriptomics/ — spatial-data-io, spatial-preprocessing, spatial-domains, spatial-deconvolution, spatial-communication, spatial-neighbors, spatial-statistics, spatial-visualization, spatial-multiomics, spatial-proteomics, image-analysis
表观基因组学
bioSkills: chip-seq/ — peak-calling(峰检测)、differential-binding(差异结合分析)、motif-analysis(基序分析)、peak-annotation(峰注释)、chipseq-qc(ChIP-seq 质控)、chipseq-visualization(ChIP-seq 可视化)、super-enhancers(超级增强子) atac-seq/ — atac-peak-calling(ATAC-seq 峰检测)、atac-qc(ATAC-seq 质控)、differential-accessibility(差异可及性分析)、footprinting(足迹分析)、motif-deviation(基序偏离分析)、nucleosome-positioning(核小体定位) methylation-analysis/ — bismark-alignment(Bismark 比对)、methylation-calling(甲基化 calling)、dmr-detection(差异甲基化区域检测)、methylkit-analysis(methylKit 分析) hi-c-analysis/ — hic-data-io(Hi-C 数据输入输出)、tad-detection(TAD 检测)、loop-calling(环检测)、compartment-analysis(区室分析)、contact-pairs(接触对分析)、matrix-operations(矩阵运算)、hic-visualization(Hi-C 可视化)、hic-differential(Hi-C 差异分析) ClawBio: methylation-clock — 表观遗传年龄估算
药物基因组学与临床
bioSkills: clinical-databases/ — clinvar-lookup(ClinVar 查询)、gnomad-frequencies(gnomAD 频率)、dbsnp-queries(dbSNP 查询)、pharmacogenomics(药物基因组学)、polygenic-risk(多基因风险)、hla-typing(HLA 分型)、variant-prioritization(变异优先级排序)、somatic-signatures(体细胞突变特征)、tumor-mutational-burden(肿瘤突变负荷)、myvariant-queries(MyVariant.info 查询) ClawBio: pharmgx-reporter — 基于 23andMe/AncestryDNA 数据的 PGx 报告(12 个基因,31 个 SNP,51 种药物) drug-photo — 药物照片 → 个性化 PGx 剂量卡(通过视觉识别) clinpgx — 用于获取基因-药物数据和 CPIC 指南的 ClinPGx API gwas-lookup — 跨 9 个基因组数据库的联邦式变异查询 gwas-prs — 基于消费者遗传数据的多基因风险评分 nutrigx_advisor — 基于消费者遗传数据的个性化营养建议
群体遗传学与 GWAS
bioSkills: population-genetics/ — association-testing (PLINK GWAS)(关联检验,使用 PLINK 进行 GWAS)、plink-basics(PLINK 基础)、population-structure(群体结构)、linkage-disequilibrium(连锁不平衡)、scikit-allel-analysis(scikit-allel 分析)、selection-statistics(选择统计量) causal-genomics/ — mendelian-randomization(孟德尔随机化)、fine-mapping(精细定位)、colocalization-analysis(共定位分析)、mediation-analysis(中介分析)、pleiotropy-detection(多效性检测) phasing-imputation/ — haplotype-phasing(单倍型定相)、genotype-imputation(基因型填补)、imputation-qc(填补质控)、reference-panels(参考面板) ClawBio: claw-ancestry-pca — 针对 SGDP 参考面板的祖先主成分分析 (PCA)
宏基因组学与微生物组
bioSkills: metagenomics/ — kraken-classification(Kraken 分类)、metaphlan-profiling(MetaPhlAn 谱分析)、abundance-estimation(丰度估计)、functional-profiling(功能谱分析)、amr-detection(抗微生物药物耐药性检测)、strain-tracking(菌株追踪)、metagenome-visualization(宏基因组可视化) microbiome/ — amplicon-processing(扩增子处理)、diversity-analysis(多样性分析)、differential-abundance(差异丰度分析)、taxonomy-assignment(分类学指派)、functional-prediction(功能预测)、qiime2-workflow(QIIME 2 工作流) ClawBio: claw-metagenomics — 鸟枪法宏基因组谱分析(分类学、耐药组、功能通路)
基因组组装与注释
bioSkills: genome-assembly/ — hifi-assembly(HiFi 组装)、long-read-assembly(长读长组装)、short-read-assembly(短读长组装)、metagenome-assembly(宏基因组组装)、assembly-polishing(组装 polishing)、assembly-qc(组装质控)、scaffolding(支架构建)、contamination-detection(污染检测) genome-annotation/ — eukaryotic-gene-prediction(真核基因预测)、prokaryotic-annotation(原核生物注释)、functional-annotation(功能注释)、ncrna-annotation(非编码 RNA 注释)、repeat-annotation(重复序列注释)、annotation-transfer(注释转移) long-read-sequencing/ — basecalling(碱基识别)、long-read-alignment(长读长比对)、long-read-qc(长读长质控)、clair3-variants(Clair3 变异检测)、structural-variants(结构变异)、medaka-polishing(Medaka polishing)、nanopore-methylation(Nanopore 甲基化检测)、isoseq-analysis(Iso-Seq 分析)
结构生物学与化学信息学
bioSkills: structural-biology/ — alphafold-predictions(AlphaFold 预测)、modern-structure-prediction(现代结构预测)、structure-io(结构文件输入输出)、structure-navigation(结构浏览)、structure-modification(结构修饰)、geometric-analysis(几何分析) chemoinformatics/ — molecular-io(分子文件输入输出)、molecular-descriptors(分子描述符)、similarity-searching(相似性搜索)、substructure-search(子结构搜索)、virtual-screening(虚拟筛选)、admet-prediction(ADMET 预测)、reaction-enumeration(反应枚举) ClawBio: struct-predictor — 本地 AlphaFold/Boltz/Chai 结构预测及比较
蛋白质组学
bioSkills: proteomics/ — data-import(数据导入)、peptide-identification(肽段鉴定)、protein-inference(蛋白推断)、quantification(定量)、differential-abundance(差异丰度分析)、dia-analysis(DIA 数据分析)、ptm-analysis(翻译后修饰分析)、proteomics-qc(蛋白质组学质控)、spectral-libraries(谱库) ClawBio: proteomics-de — 蛋白质组学差异表达分析
通路分析与基因网络
bioSkills: pathway-analysis/ — go-enrichment(GO 富集分析)、gsea(GSEA 分析)、kegg-pathways(KEGG 通路)、reactome-pathways(Reactome 通路)、wikipathways(WikiPathways)、enrichment-visualization(富集可视化) gene-regulatory-networks/ — scenic-regulons(SCENIC 调控子分析)、coexpression-networks(共表达网络)、differential-networks(差异网络分析)、multiomics-grn(多组学基因调控网络)、perturbation-simulation(扰动模拟)
免疫信息学
bioSkills: immunoinformatics/ — mhc-binding-prediction(MHC 结合预测)、epitope-prediction(表位预测)、neoantigen-prediction(新抗原预测)、immunogenicity-scoring(免疫原性评分)、tcr-epitope-binding(TCR-表位结合) tcr-bcr-analysis/ — mixcr-analysis(MiXCR 分析)、scirpy-analysis(scIRpy 分析)、immcantation-analysis(Immcantation 分析)、repertoire-visualization( repertoire 可视化)、vdjtools-analysis(VDJtools 分析)
CRISPR 与基因组工程
bioSkills: crispr-screens/ — mageck-analysis(MAGeCK 分析)、jacks-analysis(JACKS 分析)、hit-calling(命中检测)、screen-qc(筛选质控)、library-design(文库设计)、crispresso-editing(Crispresso 编辑分析)、base-editing-analysis(碱基编辑分析)、batch-correction(批次校正) genome-engineering/ — grna-design(gRNA 设计)、off-target-prediction(脱靶预测)、hdr-template-design(HDR 模板设计)、base-editing-design(碱基编辑设计)、prime-editing-design(先导编辑设计)
工作流管理
bioSkills: workflow-management/ — snakemake-workflows(Snakemake 工作流)、nextflow-pipelines(Nextflow 管道)、cwl-workflows(CWL 工作流)、wdl-workflows(WDL 工作流) ClawBio: repro-enforcer — 将任何分析导出为可复现性包(Conda 环境 + Singularity 容器 + 校验和) galaxy-bridge — 从 usegalaxy.org 访问 8,000+ Galaxy 工具
专业领域
bioSkills: alternative-splicing/ — 剪接定量、差异剪接、异构体转换、Sashimi 图、单细胞剪接、剪接质量控制 ecological-genomics/ — eDNA 宏条形码、景观基因组学、保护遗传学、生物多样性指标、群落生态学、物种界定 epidemiological-genomics/ — 病原体分型、变异监测、系统发育动力学、传播推断、抗微生物药物耐药性(AMR)监测 liquid-biopsy/ — cfDNA 预处理、ctDNA 突变检测、片段分析、肿瘤分数估计、基于甲基化的检测、纵向监测 epitranscriptomics/ — m6a 峰 calling、m6a 差异分析、m6anet 分析、MeRIP 预处理、修饰可视化 metabolomics/ — XCMS 预处理、代谢物注释、标准化与质量控制、统计分析、通路映射、脂质组学、靶向分析、MS-DIAL 预处理 flow-cytometry/ — FCS 文件处理、设门分析、补偿变换、聚类与表型分析、差异分析、流式细胞术质量控制、双联体检测、微球标准化 systems-biology/ — 通量平衡分析、代谢重建、基因必需性、情境特异性模型、模型整理 rna-structure/ — 二级结构预测、ncRNA 搜索、结构探测
数据可视化与报告
bioSkills: data-visualization/ — ggplot2 基础、热图与聚类、火山图定制、Circos 图、基因组浏览器轨道、交互式可视化、多面板图形、网络可视化、Upset 图、调色板、专用组学绘图、基因组轨道 reporting/ — R Markdown 报告、Quarto 报告、Jupyter 报告、自动化质量控制报告、图形导出 ClawBio: profile-report — 分析概况报告 data-extractor — 从科学图表图像中提取数值数据(通过视觉模型) lit-synthesizer — PubMed/bioRxiv 搜索、摘要生成、引用图谱 pubmed-summariser — 基因/疾病 PubMed 搜索及结构化简报
数据库访问
bioSkills: database-access/ — Entrez 搜索、Entrez 获取、Entrez 链接、BLAST 搜索、本地 BLAST、SRA 数据、GEO 数据、UniProt 访问、批量下载、相互作用数据库、序列相似性 ClawBio: ukb-navigator — 对 12,000+ 个 UK Biobank 字段进行语义搜索 clinical-trial-finder — 临床试验发现
实验设计
bioSkills: experimental-design/ — 功效分析、样本量计算、批次设计、多重检验
面向组学的机器学习
bioSkills: machine-learning/ — 组学分类器、生物标志物发现、生存分析、模型验证、预测解释、图谱映射 ClawBio: claw-semantic-sim — 疾病文献的语义相似性指数(PubMedBERT) omics-target-evidence-mapper — 聚合来自各组学来源的靶点级别证据
环境设置
这些技能假设存在一个生物信息学工作站。常见依赖项:
# Python
pip install biopython pysam cyvcf2 pybedtools pyBigWig scikit-allel anndata scanpy mygene
# R/Bioconductor
Rscript -e 'BiocManager::install(c("DESeq2","edgeR","Seurat","clusterProfiler","methylKit"))'
# CLI tools (Ubuntu/Debian)
sudo apt install samtools bcftools ncbi-blast+ minimap2 bedtools
# CLI tools (macOS)
brew install samtools bcftools blast minimap2 bedtools
# Or via Conda (recommended for reproducibility)
conda install -c bioconda samtools bcftools blast minimap2 bedtools fastp kraken2
注意事项
- 获取的技能不采用 Hermes SKILL.md 格式。它们使用各自的结构(bioSkills:代码模式手册;ClawBio:README + Python 脚本)。请将其作为专家参考资料阅读。
- bioSkills 是参考指南——它们展示正确的参数和代码模式,但并非可执行的流程管道。
- ClawBio 技能是可执行的——许多带有
--demo标志,可以直接运行。 - 两个仓库均假设已安装生物信息学工具。在运行流程管道前,请检查先决条件。
- 对于 ClawBio,请先在克隆的仓库中运行
pip install -r requirements.txt。 - 基因组数据文件可能非常大。在下载参考基因组、SRA 数据集或构建索引时,请注意磁盘空间。