跳到主要內容

生物信息學

通往來自 bioSkills 和 ClawBio 的 400+ 生物信息學技能的網關。涵蓋基因組學、轉錄組學、單細胞分析、變異調用、藥物基因組學、宏基因組學、結構生物學等。按需獲取領域特定的參考資料。

技能元數據

來源可選 — 使用 hermes skills install official/research/bioinformatics 安裝
路徑optional-skills/research/bioinformatics
版本1.0.0
平臺linux, macos
標籤bioinformatics, genomics, sequencing, biology, research, science

參考:完整 SKILL.md

信息

以下是 Hermes 在觸發此技能時加載的完整技能定義。這是技能激活時代理所看到的指令。

生物信息學技能網關

當被問及生物信息學、基因組學、測序、變異調用、基因表達、單細胞分析、蛋白質結構、藥物基因組學、宏基因組學、系統發育或任何計算生物學任務時使用。

此技能是通往兩個開源生物信息學技能庫的網關。它不捆綁數百個特定領域的技能,而是對它們進行索引並按需獲取所需內容。

來源

bioSkills — 385 個參考技能(代碼模式、參數指南、決策樹) 倉庫:https://github.com/GPTomics/bioSkills 格式:每個主題的 SKILL.md 包含代碼示例。支持 Python/R/CLI。

ClawBio — 33 個可運行的流水線技能(可執行腳本、可復現性捆綁包) 倉庫:https://github.com/ClawBio/ClawBio 格式:帶有演示的 Python 腳本。每次分析導出 report.md + commands.sh + environment.yml。

如何獲取和使用技能

  1. 從下面的索引中識別領域和技能名稱。
  2. 克隆相關倉庫(淺克隆以節省時間):
    # bioSkills (reference material)
    git clone --depth 1 https://github.com/GPTomics/bioSkills.git /tmp/bioSkills

    # ClawBio (runnable pipelines)
    git clone --depth 1 https://github.com/ClawBio/ClawBio.git /tmp/ClawBio
  3. 閱讀特定技能:
    # bioSkills — each skill is at: <category>/<skill-name>/SKILL.md
    cat /tmp/bioSkills/variant-calling/gatk-variant-calling/SKILL.md

    # ClawBio — each skill is at: skills/<skill-name>/
    cat /tmp/ClawBio/skills/pharmgx-reporter/README.md
  4. 將獲取的技能作為參考資料遵循。這些不是 Hermes 格式的技能 — 將它們視為專家領域指南。它們包含正確的參數、適當的工具標誌和經過驗證的流水線。

按領域劃分的技能索引

序列基礎

bioSkills: sequence-io/ — read-sequences, write-sequences, format-conversion, batch-processing, compressed-files, fastq-quality, filter-sequences, paired-end-fastq, sequence-statistics sequence-manipulation/ — seq-objects, reverse-complement, transcription-translation, motif-search, codon-usage, sequence-properties, sequence-slicing ClawBio: seq-wrangler — 序列 QC、比對和 BAM 處理(封裝 FastQC、BWA、SAMtools)

讀段 QC 與比對

bioSkills: read-qc/ — quality-reports, fastp-workflow, adapter-trimming, quality-filtering, umi-processing, contamination-screening, rnaseq-qc read-alignment/ — bwa-alignment, star-alignment, hisat2-alignment, bowtie2-alignment alignment-files/ — sam-bam-basics, alignment-sorting, alignment-filtering, bam-statistics, duplicate-handling, pileup-generation

變異調用與註釋

bioSkills: variant-calling/ — gatk-variant-calling, deepvariant, variant-calling (bcftools), joint-calling, structural-variant-calling, filtering-best-practices, variant-annotation, variant-normalization, vcf-basics, vcf-manipulation, vcf-statistics, consensus-sequences, clinical-interpretation ClawBio: vcf-annotator — VEP + ClinVar + gnomAD 註釋,具備祖先感知上下文 variant-annotation — 變異註釋流水線

差異表達(Bulk RNA-seq)

bioSkills: differential-expression/ — deseq2-basics, edger-basics, batch-correction, de-results, de-visualization, timeseries-de rna-quantification/ — alignment-free-quant (Salmon/kallisto), featurecounts-counting, tximport-workflow, count-matrix-qc expression-matrix/ — counts-ingest, gene-id-mapping, metadata-joins, sparse-handling ClawBio: rnaseq-de — 完整的 DE 流水線,包含 QC、標準化和可視化 diff-visualizer — 針對 DE 結果的豐富可視化和報告

單細胞 RNA-seq

bioSkills: single-cell/ — preprocessing, clustering, batch-integration, cell-annotation, cell-communication, doublet-detection, markers-annotation, trajectory-inference, multimodal-integration, perturb-seq, scatac-analysis, lineage-tracing, metabolite-communication, data-io ClawBio: scrna-orchestrator — 完整 Scanpy 流水線(QC、聚類、標記物、註釋) scrna-embedding — 基於 scVI 的潛在嵌入和批次整合

空間轉錄組學

bioSkills: spatial-transcriptomics/ — spatial-data-io, spatial-preprocessing, spatial-domains, spatial-deconvolution, spatial-communication, spatial-neighbors, spatial-statistics, spatial-visualization, spatial-multiomics, spatial-proteomics, image-analysis

表觀基因組學

bioSkills: chip-seq/ — peak-calling(峰檢測)、differential-binding(差異結合分析)、motif-analysis(基序分析)、peak-annotation(峰註釋)、chipseq-qc(ChIP-seq 質控)、chipseq-visualization(ChIP-seq 可視化)、super-enhancers(超級增強子) atac-seq/ — atac-peak-calling(ATAC-seq 峰檢測)、atac-qc(ATAC-seq 質控)、differential-accessibility(差異可及性分析)、footprinting(足跡分析)、motif-deviation(基序偏離分析)、nucleosome-positioning(核小體定位) methylation-analysis/ — bismark-alignment(Bismark 比對)、methylation-calling(甲基化 calling)、dmr-detection(差異甲基化區域檢測)、methylkit-analysis(methylKit 分析) hi-c-analysis/ — hic-data-io(Hi-C 數據輸入輸出)、tad-detection(TAD 檢測)、loop-calling(環檢測)、compartment-analysis(區室分析)、contact-pairs(接觸對分析)、matrix-operations(矩陣運算)、hic-visualization(Hi-C 可視化)、hic-differential(Hi-C 差異分析) ClawBio: methylation-clock — 表觀遺傳年齡估算

藥物基因組學與臨床

bioSkills: clinical-databases/ — clinvar-lookup(ClinVar 查詢)、gnomad-frequencies(gnomAD 頻率)、dbsnp-queries(dbSNP 查詢)、pharmacogenomics(藥物基因組學)、polygenic-risk(多基因風險)、hla-typing(HLA 分型)、variant-prioritization(變異優先級排序)、somatic-signatures(體細胞突變特徵)、tumor-mutational-burden(腫瘤突變負荷)、myvariant-queries(MyVariant.info 查詢) ClawBio: pharmgx-reporter — 基於 23andMe/AncestryDNA 數據的 PGx 報告(12 個基因,31 個 SNP,51 種藥物) drug-photo — 藥物照片 → 個性化 PGx 劑量卡(通過視覺識別) clinpgx — 用於獲取基因-藥物數據和 CPIC 指南的 ClinPGx API gwas-lookup — 跨 9 個基因組數據庫的聯邦式變異查詢 gwas-prs — 基於消費者遺傳數據的多基因風險評分 nutrigx_advisor — 基於消費者遺傳數據的個性化營養建議

群體遺傳學與 GWAS

bioSkills: population-genetics/ — association-testing (PLINK GWAS)(關聯檢驗,使用 PLINK 進行 GWAS)、plink-basics(PLINK 基礎)、population-structure(群體結構)、linkage-disequilibrium(連鎖不平衡)、scikit-allel-analysis(scikit-allel 分析)、selection-statistics(選擇統計量) causal-genomics/ — mendelian-randomization(孟德爾隨機化)、fine-mapping(精細定位)、colocalization-analysis(共定位分析)、mediation-analysis(中介分析)、pleiotropy-detection(多效性檢測) phasing-imputation/ — haplotype-phasing(單倍型定相)、genotype-imputation(基因型填補)、imputation-qc(填補質控)、reference-panels(參考面板) ClawBio: claw-ancestry-pca — 針對 SGDP 參考面板的祖先主成分分析 (PCA)

宏基因組學與微生物組

bioSkills: metagenomics/ — kraken-classification(Kraken 分類)、metaphlan-profiling(MetaPhlAn 譜分析)、abundance-estimation(丰度估計)、functional-profiling(功能譜分析)、amr-detection(抗微生物藥物耐藥性檢測)、strain-tracking(菌株追蹤)、metagenome-visualization(宏基因組可視化) microbiome/ — amplicon-processing(擴增子處理)、diversity-analysis(多樣性分析)、differential-abundance(差異丰度分析)、taxonomy-assignment(分類學指派)、functional-prediction(功能預測)、qiime2-workflow(QIIME 2 工作流) ClawBio: claw-metagenomics — 鳥槍法宏基因組譜分析(分類學、耐藥組、功能通路)

基因組組裝與註釋

bioSkills: genome-assembly/ — hifi-assembly(HiFi 組裝)、long-read-assembly(長讀長組裝)、short-read-assembly(短讀長組裝)、metagenome-assembly(宏基因組組裝)、assembly-polishing(組裝 polishing)、assembly-qc(組裝質控)、scaffolding(支架構建)、contamination-detection(汙染檢測) genome-annotation/ — eukaryotic-gene-prediction(真核基因預測)、prokaryotic-annotation(原核生物註釋)、functional-annotation(功能註釋)、ncrna-annotation(非編碼 RNA 註釋)、repeat-annotation(重複序列註釋)、annotation-transfer(註釋轉移) long-read-sequencing/ — basecalling(鹼基識別)、long-read-alignment(長讀長比對)、long-read-qc(長讀長質控)、clair3-variants(Clair3 變異檢測)、structural-variants(結構變異)、medaka-polishing(Medaka polishing)、nanopore-methylation(Nanopore 甲基化檢測)、isoseq-analysis(Iso-Seq 分析)

結構生物學與化學信息學

bioSkills: structural-biology/ — alphafold-predictions(AlphaFold 預測)、modern-structure-prediction(現代結構預測)、structure-io(結構文件輸入輸出)、structure-navigation(結構瀏覽)、structure-modification(結構修飾)、geometric-analysis(幾何分析) chemoinformatics/ — molecular-io(分子文件輸入輸出)、molecular-descriptors(分子描述符)、similarity-searching(相似性搜索)、substructure-search(子結構搜索)、virtual-screening(虛擬篩選)、admet-prediction(ADMET 預測)、reaction-enumeration(反應枚舉) ClawBio: struct-predictor — 本地 AlphaFold/Boltz/Chai 結構預測及比較

蛋白質組學

bioSkills: proteomics/ — data-import(數據導入)、peptide-identification(肽段鑑定)、protein-inference(蛋白推斷)、quantification(定量)、differential-abundance(差異丰度分析)、dia-analysis(DIA 數據分析)、ptm-analysis(翻譯後修飾分析)、proteomics-qc(蛋白質組學質控)、spectral-libraries(譜庫) ClawBio: proteomics-de — 蛋白質組學差異表達分析

通路分析與基因網絡

bioSkills: pathway-analysis/ — go-enrichment(GO 富集分析)、gsea(GSEA 分析)、kegg-pathways(KEGG 通路)、reactome-pathways(Reactome 通路)、wikipathways(WikiPathways)、enrichment-visualization(富集可視化) gene-regulatory-networks/ — scenic-regulons(SCENIC 調控子分析)、coexpression-networks(共表達網絡)、differential-networks(差異網絡分析)、multiomics-grn(多組學基因調控網絡)、perturbation-simulation(擾動模擬)

免疫信息學

bioSkills: immunoinformatics/ — mhc-binding-prediction(MHC 結合預測)、epitope-prediction(表位預測)、neoantigen-prediction(新抗原預測)、immunogenicity-scoring(免疫原性評分)、tcr-epitope-binding(TCR-表位結合) tcr-bcr-analysis/ — mixcr-analysis(MiXCR 分析)、scirpy-analysis(scIRpy 分析)、immcantation-analysis(Immcantation 分析)、repertoire-visualization( repertoire 可視化)、vdjtools-analysis(VDJtools 分析)

CRISPR 與基因組工程

bioSkills: crispr-screens/ — mageck-analysis(MAGeCK 分析)、jacks-analysis(JACKS 分析)、hit-calling(命中檢測)、screen-qc(篩選質控)、library-design(文庫設計)、crispresso-editing(Crispresso 編輯分析)、base-editing-analysis(鹼基編輯分析)、batch-correction(批次校正) genome-engineering/ — grna-design(gRNA 設計)、off-target-prediction(脫靶預測)、hdr-template-design(HDR 模板設計)、base-editing-design(鹼基編輯設計)、prime-editing-design(先導編輯設計)

工作流管理

bioSkills: workflow-management/ — snakemake-workflows(Snakemake 工作流)、nextflow-pipelines(Nextflow 管道)、cwl-workflows(CWL 工作流)、wdl-workflows(WDL 工作流) ClawBio: repro-enforcer — 將任何分析導出為可復現性包(Conda 環境 + Singularity 容器 + 校驗和) galaxy-bridge — 從 usegalaxy.org 訪問 8,000+ Galaxy 工具

專業領域

bioSkills: alternative-splicing/ — 剪接定量、差異剪接、異構體轉換、Sashimi 圖、單細胞剪接、剪接質量控制 ecological-genomics/ — eDNA 宏條形碼、景觀基因組學、保護遺傳學、生物多樣性指標、群落生態學、物種界定 epidemiological-genomics/ — 病原體分型、變異監測、系統發育動力學、傳播推斷、抗微生物藥物耐藥性(AMR)監測 liquid-biopsy/ — cfDNA 預處理、ctDNA 突變檢測、片段分析、腫瘤分數估計、基於甲基化的檢測、縱向監測 epitranscriptomics/ — m6a 峰 calling、m6a 差異分析、m6anet 分析、MeRIP 預處理、修飾可視化 metabolomics/ — XCMS 預處理、代謝物註釋、標準化與質量控制、統計分析、通路映射、脂質組學、靶向分析、MS-DIAL 預處理 flow-cytometry/ — FCS 文件處理、設門分析、補償變換、聚類與表型分析、差異分析、流式細胞術質量控制、雙聯體檢測、微球標準化 systems-biology/ — 通量平衡分析、代謝重建、基因必需性、情境特異性模型、模型整理 rna-structure/ — 二級結構預測、ncRNA 搜索、結構探測

數據可視化與報告

bioSkills: data-visualization/ — ggplot2 基礎、熱圖與聚類、火山圖定製、Circos 圖、基因組瀏覽器軌道、交互式可視化、多面板圖形、網絡可視化、Upset 圖、調色板、專用組學繪圖、基因組軌道 reporting/ — R Markdown 報告、Quarto 報告、Jupyter 報告、自動化質量控制報告、圖形導出 ClawBio: profile-report — 分析概況報告 data-extractor — 從科學圖表圖像中提取數值數據(通過視覺模型) lit-synthesizer — PubMed/bioRxiv 搜索、摘要生成、引用圖譜 pubmed-summariser — 基因/疾病 PubMed 搜索及結構化簡報

數據庫訪問

bioSkills: database-access/ — Entrez 搜索、Entrez 獲取、Entrez 鏈接、BLAST 搜索、本地 BLAST、SRA 數據、GEO 數據、UniProt 訪問、批量下載、相互作用數據庫、序列相似性 ClawBio: ukb-navigator — 對 12,000+ 個 UK Biobank 字段進行語義搜索 clinical-trial-finder — 臨床試驗發現

實驗設計

bioSkills: experimental-design/ — 功效分析、樣本量計算、批次設計、多重檢驗

面向組學的機器學習

bioSkills: machine-learning/ — 組學分類器、生物標誌物發現、生存分析、模型驗證、預測解釋、圖譜映射 ClawBio: claw-semantic-sim — 疾病文獻的語義相似性指數(PubMedBERT) omics-target-evidence-mapper — 聚合來自各組學來源的靶點級別證據

環境設置

這些技能假設存在一個生物信息學工作站。常見依賴項:

# Python
pip install biopython pysam cyvcf2 pybedtools pyBigWig scikit-allel anndata scanpy mygene

# R/Bioconductor
Rscript -e 'BiocManager::install(c("DESeq2","edgeR","Seurat","clusterProfiler","methylKit"))'

# CLI tools (Ubuntu/Debian)
sudo apt install samtools bcftools ncbi-blast+ minimap2 bedtools

# CLI tools (macOS)
brew install samtools bcftools blast minimap2 bedtools

# Or via Conda (recommended for reproducibility)
conda install -c bioconda samtools bcftools blast minimap2 bedtools fastp kraken2

注意事項

  • 獲取的技能採用 Hermes SKILL.md 格式。它們使用各自的結構(bioSkills:代碼模式手冊;ClawBio:README + Python 腳本)。請將其作為專家參考資料閱讀。
  • bioSkills 是參考指南——它們展示正確的參數和代碼模式,但並非可執行的流程管道。
  • ClawBio 技能是可執行的——許多帶有 --demo 標誌,可以直接運行。
  • 兩個倉庫均假設已安裝生物信息學工具。在運行流程管道前,請檢查先決條件。
  • 對於 ClawBio,請先在克隆的倉庫中運行 pip install -r requirements.txt
  • 基因組數據文件可能非常大。在下載參考基因組、SRA 數據集或構建索引時,請注意磁盤空間。