跳到主要内容

生物信息学

通往来自 bioSkills 和 ClawBio 的 400+ 生物信息学技能的网关。涵盖基因组学、转录组学、单细胞分析、变异调用、药物基因组学、宏基因组学、结构生物学等。按需获取领域特定的参考资料。

技能元数据

来源可选 — 使用 hermes skills install official/research/bioinformatics 安装
路径optional-skills/research/bioinformatics
版本1.0.0
平台linux, macos
标签bioinformatics, genomics, sequencing, biology, research, science

参考:完整 SKILL.md

信息

以下是 Hermes 在触发此技能时加载的完整技能定义。这是技能激活时代理所看到的指令。

生物信息学技能网关

当被问及生物信息学、基因组学、测序、变异调用、基因表达、单细胞分析、蛋白质结构、药物基因组学、宏基因组学、系统发育或任何计算生物学任务时使用。

此技能是通往两个开源生物信息学技能库的网关。它不捆绑数百个特定领域的技能,而是对它们进行索引并按需获取所需内容。

来源

bioSkills — 385 个参考技能(代码模式、参数指南、决策树) 仓库:https://github.com/GPTomics/bioSkills 格式:每个主题的 SKILL.md 包含代码示例。支持 Python/R/CLI。

ClawBio — 33 个可运行的流水线技能(可执行脚本、可复现性捆绑包) 仓库:https://github.com/ClawBio/ClawBio 格式:带有演示的 Python 脚本。每次分析导出 report.md + commands.sh + environment.yml。

如何获取和使用技能

  1. 从下面的索引中识别领域和技能名称。
  2. 克隆相关仓库(浅克隆以节省时间):
    # bioSkills (reference material)
    git clone --depth 1 https://github.com/GPTomics/bioSkills.git /tmp/bioSkills

    # ClawBio (runnable pipelines)
    git clone --depth 1 https://github.com/ClawBio/ClawBio.git /tmp/ClawBio
  3. 阅读特定技能:
    # bioSkills — each skill is at: <category>/<skill-name>/SKILL.md
    cat /tmp/bioSkills/variant-calling/gatk-variant-calling/SKILL.md

    # ClawBio — each skill is at: skills/<skill-name>/
    cat /tmp/ClawBio/skills/pharmgx-reporter/README.md
  4. 将获取的技能作为参考资料遵循。这些不是 Hermes 格式的技能 — 将它们视为专家领域指南。它们包含正确的参数、适当的工具标志和经过验证的流水线。

按领域划分的技能索引

序列基础

bioSkills: sequence-io/ — read-sequences, write-sequences, format-conversion, batch-processing, compressed-files, fastq-quality, filter-sequences, paired-end-fastq, sequence-statistics sequence-manipulation/ — seq-objects, reverse-complement, transcription-translation, motif-search, codon-usage, sequence-properties, sequence-slicing ClawBio: seq-wrangler — 序列 QC、比对和 BAM 处理(封装 FastQC、BWA、SAMtools)

读段 QC 与比对

bioSkills: read-qc/ — quality-reports, fastp-workflow, adapter-trimming, quality-filtering, umi-processing, contamination-screening, rnaseq-qc read-alignment/ — bwa-alignment, star-alignment, hisat2-alignment, bowtie2-alignment alignment-files/ — sam-bam-basics, alignment-sorting, alignment-filtering, bam-statistics, duplicate-handling, pileup-generation

变异调用与注释

bioSkills: variant-calling/ — gatk-variant-calling, deepvariant, variant-calling (bcftools), joint-calling, structural-variant-calling, filtering-best-practices, variant-annotation, variant-normalization, vcf-basics, vcf-manipulation, vcf-statistics, consensus-sequences, clinical-interpretation ClawBio: vcf-annotator — VEP + ClinVar + gnomAD 注释,具备祖先感知上下文 variant-annotation — 变异注释流水线

差异表达(Bulk RNA-seq)

bioSkills: differential-expression/ — deseq2-basics, edger-basics, batch-correction, de-results, de-visualization, timeseries-de rna-quantification/ — alignment-free-quant (Salmon/kallisto), featurecounts-counting, tximport-workflow, count-matrix-qc expression-matrix/ — counts-ingest, gene-id-mapping, metadata-joins, sparse-handling ClawBio: rnaseq-de — 完整的 DE 流水线,包含 QC、标准化和可视化 diff-visualizer — 针对 DE 结果的丰富可视化和报告

单细胞 RNA-seq

bioSkills: single-cell/ — preprocessing, clustering, batch-integration, cell-annotation, cell-communication, doublet-detection, markers-annotation, trajectory-inference, multimodal-integration, perturb-seq, scatac-analysis, lineage-tracing, metabolite-communication, data-io ClawBio: scrna-orchestrator — 完整 Scanpy 流水线(QC、聚类、标记物、注释) scrna-embedding — 基于 scVI 的潜在嵌入和批次整合

空间转录组学

bioSkills: spatial-transcriptomics/ — spatial-data-io, spatial-preprocessing, spatial-domains, spatial-deconvolution, spatial-communication, spatial-neighbors, spatial-statistics, spatial-visualization, spatial-multiomics, spatial-proteomics, image-analysis

表观基因组学

bioSkills: chip-seq/ — peak-calling(峰检测)、differential-binding(差异结合分析)、motif-analysis(基序分析)、peak-annotation(峰注释)、chipseq-qc(ChIP-seq 质控)、chipseq-visualization(ChIP-seq 可视化)、super-enhancers(超级增强子) atac-seq/ — atac-peak-calling(ATAC-seq 峰检测)、atac-qc(ATAC-seq 质控)、differential-accessibility(差异可及性分析)、footprinting(足迹分析)、motif-deviation(基序偏离分析)、nucleosome-positioning(核小体定位) methylation-analysis/ — bismark-alignment(Bismark 比对)、methylation-calling(甲基化 calling)、dmr-detection(差异甲基化区域检测)、methylkit-analysis(methylKit 分析) hi-c-analysis/ — hic-data-io(Hi-C 数据输入输出)、tad-detection(TAD 检测)、loop-calling(环检测)、compartment-analysis(区室分析)、contact-pairs(接触对分析)、matrix-operations(矩阵运算)、hic-visualization(Hi-C 可视化)、hic-differential(Hi-C 差异分析) ClawBio: methylation-clock — 表观遗传年龄估算

药物基因组学与临床

bioSkills: clinical-databases/ — clinvar-lookup(ClinVar 查询)、gnomad-frequencies(gnomAD 频率)、dbsnp-queries(dbSNP 查询)、pharmacogenomics(药物基因组学)、polygenic-risk(多基因风险)、hla-typing(HLA 分型)、variant-prioritization(变异优先级排序)、somatic-signatures(体细胞突变特征)、tumor-mutational-burden(肿瘤突变负荷)、myvariant-queries(MyVariant.info 查询) ClawBio: pharmgx-reporter — 基于 23andMe/AncestryDNA 数据的 PGx 报告(12 个基因,31 个 SNP,51 种药物) drug-photo — 药物照片 → 个性化 PGx 剂量卡(通过视觉识别) clinpgx — 用于获取基因-药物数据和 CPIC 指南的 ClinPGx API gwas-lookup — 跨 9 个基因组数据库的联邦式变异查询 gwas-prs — 基于消费者遗传数据的多基因风险评分 nutrigx_advisor — 基于消费者遗传数据的个性化营养建议

群体遗传学与 GWAS

bioSkills: population-genetics/ — association-testing (PLINK GWAS)(关联检验,使用 PLINK 进行 GWAS)、plink-basics(PLINK 基础)、population-structure(群体结构)、linkage-disequilibrium(连锁不平衡)、scikit-allel-analysis(scikit-allel 分析)、selection-statistics(选择统计量) causal-genomics/ — mendelian-randomization(孟德尔随机化)、fine-mapping(精细定位)、colocalization-analysis(共定位分析)、mediation-analysis(中介分析)、pleiotropy-detection(多效性检测) phasing-imputation/ — haplotype-phasing(单倍型定相)、genotype-imputation(基因型填补)、imputation-qc(填补质控)、reference-panels(参考面板) ClawBio: claw-ancestry-pca — 针对 SGDP 参考面板的祖先主成分分析 (PCA)

宏基因组学与微生物组

bioSkills: metagenomics/ — kraken-classification(Kraken 分类)、metaphlan-profiling(MetaPhlAn 谱分析)、abundance-estimation(丰度估计)、functional-profiling(功能谱分析)、amr-detection(抗微生物药物耐药性检测)、strain-tracking(菌株追踪)、metagenome-visualization(宏基因组可视化) microbiome/ — amplicon-processing(扩增子处理)、diversity-analysis(多样性分析)、differential-abundance(差异丰度分析)、taxonomy-assignment(分类学指派)、functional-prediction(功能预测)、qiime2-workflow(QIIME 2 工作流) ClawBio: claw-metagenomics — 鸟枪法宏基因组谱分析(分类学、耐药组、功能通路)

基因组组装与注释

bioSkills: genome-assembly/ — hifi-assembly(HiFi 组装)、long-read-assembly(长读长组装)、short-read-assembly(短读长组装)、metagenome-assembly(宏基因组组装)、assembly-polishing(组装 polishing)、assembly-qc(组装质控)、scaffolding(支架构建)、contamination-detection(污染检测) genome-annotation/ — eukaryotic-gene-prediction(真核基因预测)、prokaryotic-annotation(原核生物注释)、functional-annotation(功能注释)、ncrna-annotation(非编码 RNA 注释)、repeat-annotation(重复序列注释)、annotation-transfer(注释转移) long-read-sequencing/ — basecalling(碱基识别)、long-read-alignment(长读长比对)、long-read-qc(长读长质控)、clair3-variants(Clair3 变异检测)、structural-variants(结构变异)、medaka-polishing(Medaka polishing)、nanopore-methylation(Nanopore 甲基化检测)、isoseq-analysis(Iso-Seq 分析)

结构生物学与化学信息学

bioSkills: structural-biology/ — alphafold-predictions(AlphaFold 预测)、modern-structure-prediction(现代结构预测)、structure-io(结构文件输入输出)、structure-navigation(结构浏览)、structure-modification(结构修饰)、geometric-analysis(几何分析) chemoinformatics/ — molecular-io(分子文件输入输出)、molecular-descriptors(分子描述符)、similarity-searching(相似性搜索)、substructure-search(子结构搜索)、virtual-screening(虚拟筛选)、admet-prediction(ADMET 预测)、reaction-enumeration(反应枚举) ClawBio: struct-predictor — 本地 AlphaFold/Boltz/Chai 结构预测及比较

蛋白质组学

bioSkills: proteomics/ — data-import(数据导入)、peptide-identification(肽段鉴定)、protein-inference(蛋白推断)、quantification(定量)、differential-abundance(差异丰度分析)、dia-analysis(DIA 数据分析)、ptm-analysis(翻译后修饰分析)、proteomics-qc(蛋白质组学质控)、spectral-libraries(谱库) ClawBio: proteomics-de — 蛋白质组学差异表达分析

通路分析与基因网络

bioSkills: pathway-analysis/ — go-enrichment(GO 富集分析)、gsea(GSEA 分析)、kegg-pathways(KEGG 通路)、reactome-pathways(Reactome 通路)、wikipathways(WikiPathways)、enrichment-visualization(富集可视化) gene-regulatory-networks/ — scenic-regulons(SCENIC 调控子分析)、coexpression-networks(共表达网络)、differential-networks(差异网络分析)、multiomics-grn(多组学基因调控网络)、perturbation-simulation(扰动模拟)

免疫信息学

bioSkills: immunoinformatics/ — mhc-binding-prediction(MHC 结合预测)、epitope-prediction(表位预测)、neoantigen-prediction(新抗原预测)、immunogenicity-scoring(免疫原性评分)、tcr-epitope-binding(TCR-表位结合) tcr-bcr-analysis/ — mixcr-analysis(MiXCR 分析)、scirpy-analysis(scIRpy 分析)、immcantation-analysis(Immcantation 分析)、repertoire-visualization( repertoire 可视化)、vdjtools-analysis(VDJtools 分析)

CRISPR 与基因组工程

bioSkills: crispr-screens/ — mageck-analysis(MAGeCK 分析)、jacks-analysis(JACKS 分析)、hit-calling(命中检测)、screen-qc(筛选质控)、library-design(文库设计)、crispresso-editing(Crispresso 编辑分析)、base-editing-analysis(碱基编辑分析)、batch-correction(批次校正) genome-engineering/ — grna-design(gRNA 设计)、off-target-prediction(脱靶预测)、hdr-template-design(HDR 模板设计)、base-editing-design(碱基编辑设计)、prime-editing-design(先导编辑设计)

工作流管理

bioSkills: workflow-management/ — snakemake-workflows(Snakemake 工作流)、nextflow-pipelines(Nextflow 管道)、cwl-workflows(CWL 工作流)、wdl-workflows(WDL 工作流) ClawBio: repro-enforcer — 将任何分析导出为可复现性包(Conda 环境 + Singularity 容器 + 校验和) galaxy-bridge — 从 usegalaxy.org 访问 8,000+ Galaxy 工具

专业领域

bioSkills: alternative-splicing/ — 剪接定量、差异剪接、异构体转换、Sashimi 图、单细胞剪接、剪接质量控制 ecological-genomics/ — eDNA 宏条形码、景观基因组学、保护遗传学、生物多样性指标、群落生态学、物种界定 epidemiological-genomics/ — 病原体分型、变异监测、系统发育动力学、传播推断、抗微生物药物耐药性(AMR)监测 liquid-biopsy/ — cfDNA 预处理、ctDNA 突变检测、片段分析、肿瘤分数估计、基于甲基化的检测、纵向监测 epitranscriptomics/ — m6a 峰 calling、m6a 差异分析、m6anet 分析、MeRIP 预处理、修饰可视化 metabolomics/ — XCMS 预处理、代谢物注释、标准化与质量控制、统计分析、通路映射、脂质组学、靶向分析、MS-DIAL 预处理 flow-cytometry/ — FCS 文件处理、设门分析、补偿变换、聚类与表型分析、差异分析、流式细胞术质量控制、双联体检测、微球标准化 systems-biology/ — 通量平衡分析、代谢重建、基因必需性、情境特异性模型、模型整理 rna-structure/ — 二级结构预测、ncRNA 搜索、结构探测

数据可视化与报告

bioSkills: data-visualization/ — ggplot2 基础、热图与聚类、火山图定制、Circos 图、基因组浏览器轨道、交互式可视化、多面板图形、网络可视化、Upset 图、调色板、专用组学绘图、基因组轨道 reporting/ — R Markdown 报告、Quarto 报告、Jupyter 报告、自动化质量控制报告、图形导出 ClawBio: profile-report — 分析概况报告 data-extractor — 从科学图表图像中提取数值数据(通过视觉模型) lit-synthesizer — PubMed/bioRxiv 搜索、摘要生成、引用图谱 pubmed-summariser — 基因/疾病 PubMed 搜索及结构化简报

数据库访问

bioSkills: database-access/ — Entrez 搜索、Entrez 获取、Entrez 链接、BLAST 搜索、本地 BLAST、SRA 数据、GEO 数据、UniProt 访问、批量下载、相互作用数据库、序列相似性 ClawBio: ukb-navigator — 对 12,000+ 个 UK Biobank 字段进行语义搜索 clinical-trial-finder — 临床试验发现

实验设计

bioSkills: experimental-design/ — 功效分析、样本量计算、批次设计、多重检验

面向组学的机器学习

bioSkills: machine-learning/ — 组学分类器、生物标志物发现、生存分析、模型验证、预测解释、图谱映射 ClawBio: claw-semantic-sim — 疾病文献的语义相似性指数(PubMedBERT) omics-target-evidence-mapper — 聚合来自各组学来源的靶点级别证据

环境设置

这些技能假设存在一个生物信息学工作站。常见依赖项:

# Python
pip install biopython pysam cyvcf2 pybedtools pyBigWig scikit-allel anndata scanpy mygene

# R/Bioconductor
Rscript -e 'BiocManager::install(c("DESeq2","edgeR","Seurat","clusterProfiler","methylKit"))'

# CLI tools (Ubuntu/Debian)
sudo apt install samtools bcftools ncbi-blast+ minimap2 bedtools

# CLI tools (macOS)
brew install samtools bcftools blast minimap2 bedtools

# Or via Conda (recommended for reproducibility)
conda install -c bioconda samtools bcftools blast minimap2 bedtools fastp kraken2

注意事项

  • 获取的技能采用 Hermes SKILL.md 格式。它们使用各自的结构(bioSkills:代码模式手册;ClawBio:README + Python 脚本)。请将其作为专家参考资料阅读。
  • bioSkills 是参考指南——它们展示正确的参数和代码模式,但并非可执行的流程管道。
  • ClawBio 技能是可执行的——许多带有 --demo 标志,可以直接运行。
  • 两个仓库均假设已安装生物信息学工具。在运行流程管道前,请检查先决条件。
  • 对于 ClawBio,请先在克隆的仓库中运行 pip install -r requirements.txt
  • 基因组数据文件可能非常大。在下载参考基因组、SRA 数据集或构建索引时,请注意磁盘空间。