
🧬 生物信息学工具元素周期表 · 完整指南
本页整理自 Eagle Genomics 发布的「生物信息学元素周期表」(The Elements of Bioinformatics),
收录了基因组学与生物信息学领域最具代表性的开源与商业工具。
这些工具贯穿从原始测序数据处理、基因组拼接、基因预测,到变异分析、结构可视化、数据库访问的完整分析流程,
是现代生命科学研究不可或缺的基础设施。
以下按功能领域分类,并注明各工具的当前维护状态(截至 2025 年)。
一、序列比对工具(Aligners)
1.1 长读长比对(Long Read Aligners)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Bn | BLAST NCBI | 最经典的本地序列相似性搜索工具,广泛用于蛋白质和核酸数据库比对 | ✅ 活跃维护 |
| So | SOAP | 短序列比对工具,适用于 Illumina 数据的快速比对 | ⚠️ 基本停止更新 |
| Hm | HMMER | 基于隐马尔可夫模型的蛋白质序列同源搜索工具 | ✅ 活跃维护 |
| Ma | MAQ | 早期短读长比对与 SNP 调用工具 | ❌ 已停止维护 |
1.2 短读长比对(Short Read Aligners)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Mu | MUMmer | 用于完整基因组序列快速比对的系统,适合草图和完整基因组 | ✅ 活跃维护(MUMmer4) |
| Bo | Bowtie | 超快速短 DNA 序列比对工具,内存高效 | ✅ 活跃维护(Bowtie2) |
| Ss | SSAHA | 基于哈希的短序列比对工具 | ⚠️ 维护较少 |
| Bw | BWA | Burrows-Wheeler 比对工具,是目前最广泛使用的 DNA 比对软件之一 | ✅ 活跃维护 |
1.3 其他比对工具(Other Aligners)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Cl | ClustalW | 经典多序列比对工具 | ⚠️ 维护较少(已有 Clustal Omega 替代) |
| Cf | T-COFFEE | 高精度多序列比对工具,支持结构信息辅助比对 | ✅ 活跃维护 |
| Bf | BFAST | 支持颜色空间读长的比对工具 | ❌ 已停止维护 |
1.4 多重序列比对(Multiple Sequence Aligners)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Ex | EXONERATE | 灵活的序列比对工具,支持蛋白质、DNA 比对及剪接位点识别 | ⚠️ 维护较少 |
| Sm | SMALT | 短读长比对工具,适合高多态性基因组 | ❌ 已停止维护 |
二、基因组拼接工具(Assemblers)
2.1 长读长拼接(Genomic Long Read Assemblers)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Pe | PECAN | 基因组比对与拼接辅助工具 | ⚠️ 维护较少 |
| Pr | PRANK | 进化感知的多序列比对工具,考虑插入缺失的进化历史 | ✅ 活跃维护 |
| Ma | MAVID | 多基因组比对工具 | ❌ 已停止维护 |
| Mi | MIRA 97 | 多平台序列拼接工具,支持 Sanger、454、Illumina 数据 | ⚠️ 维护较少 |
| Ph | PHUSION2 | 重复序列处理优化的全基因组拼接工具 | ❌ 已停止维护 |
| Po | PROT PAL | 蛋白质序列比对工具 | ❌ 已停止维护 |
2.2 短读长拼接(Genomic Short Read Assemblers)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Se | SEQCLEAN | 序列清洗与质量过滤工具 | ❌ 已停止维护 |
| Fo | FORGE | 基因组拼接工具 | ❌ 已停止维护 |
| Qu | QUAKE | 基于 k-mer 的测序错误校正工具 | ❌ 已停止维护 |
| Fs | FSA | 进化感知型多序列比对工具 | ❌ 已停止维护 |
| Pi | PRICE | 迭代序列拼接工具,适合靶向序列恢复 | ⚠️ 维护较少 |
2.3 转录组拼接(mRNA Assemblers)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Jm | JMX | 转录组拼接相关工具 | ❌ 已停止维护 |
| Ve | VELVET | 基于 de Bruijn 图的短读长基因组拼接工具 | ⚠️ 已被 SPAdes 等替代 |
| Me | MERACULOUS | 高效的大基因组二倍体拼接工具 | ✅ 活跃维护 |
| Al | ALLPATHS-LG | 专为大型基因组设计的高质量拼接工具 | ❌ 已停止维护 |
2.4 结构建模(Structure Modelling)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Ce | CELERA | Celera 拼接工具,曾用于人类基因组计划 | ❌ 已停止维护 |
| Ar | ARACHNE | 全基因组鸟枪法序列拼接工具 | ❌ 已停止维护 |
| Pb | PROBCONS | 基于概率一致性的多序列比对工具 | ⚠️ 维护较少 |
| Ba | BAMBUS 209 | 基因组支架构建工具 | ❌ 已停止维护 |
三、基因预测工具(Gene Prediction)
3.1 mRNA 基因预测
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Sd | SOAP de novo | 基于 de Bruijn 图的基因组拼接工具 | ⚠️ 维护较少 |
| Sg | SGA | 基于字符串图的序列拼接与分析工具 | ✅ 活跃维护 |
| Co | CORTEX CON RP | 基于 de Bruijn 图的变异检测与拼接框架 | ✅ 活跃维护 |
| Pa | PE-ASSEMBLER | 双端读长拼接工具 | ❌ 已停止维护 |
| Mg | MGENE | 基因预测工具 | ⚠️ 维护较少 |
| Ji | JIGSAW | 结合多种证据的基因预测工具 | ⚠️ 维护较少 |
3.2 ncRNA 基因预测
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Un | UNIGENE | NCBI 非冗余基因簇数据库与工具集 | ❌ NCBI 已于 2019 年停止更新 |
| Cu | CUFFLINKS | RNA-seq 转录本拼接与定量工具 | ⚠️ 已被 StringTie 等替代 |
| Oa | OASES | 基于 Velvet 的转录组从头拼接工具 | ❌ 已停止维护 |
| Sp | SPAdes | 圣彼得堡基因组拼接工具,支持多平台数据,现已成为标准拼接工具 | ✅ 活跃维护 |
四、序列工具(Sequence Tools)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Gl | GLIMMER 3 | 用于原核生物基因组的基因预测工具 | ⚠️ 维护较少 |
| Fx | FASTX-Toolkit | 用于 FASTA/FASTQ 文件预处理的命令行工具集 | ⚠️ 维护较少(已有更多替代品) |
| Eu | EUGENE | 用于真核生物基因组注释的基因预测工具 | ⚠️ 维护较少 |
| Ep | ENSEMBL PIPELINE | Ensembl 基因组注释自动化流程 | ✅ 活跃维护 |
| Sn | SNAP | 用于真核生物基因预测的隐马尔可夫模型工具 | ⚠️ 维护较少 |
| Au | AUGUSTUS | 高精度真核生物基因预测工具,支持多种物种训练模型 | ✅ 活跃维护 |
五、工作流工具(Workflows)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Py | PHYLIP | 经典系统发育分析软件包 | ⚠️ 维护较少(已有 IQ-TREE 等替代) |
| Bs | aoSQL | 生物信息学数据库查询相关工具 | ❌ 信息有限 |
| Tr | tRNAscan | tRNA 基因识别工具,广泛用于基因组注释 | ✅ 活跃维护(tRNAscan-SE 2.0) |
| Rn | RNA-old | RNA 序列分析工具(早期版本) | ❌ 已停止维护 |
| In | INTERMINE | 生物数据整合与查询平台 | ✅ 活跃维护 |
| Pd | PDB | 蛋白质数据库,全球最重要的蛋白质三维结构存储库 | ✅ 活跃维护 |
| Up | UniProt | 全球最全面的蛋白质序列与功能数据库 | ✅ 活跃维护 |
| Tg | MiSO | 可变剪接分析工具 | ⚠️ 维护较少 |
六、基因组浏览器(Genome Browsers)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Em | EMBOSS | 欧洲分子生物学开放软件套件,包含大量序列分析工具 | ✅ 活跃维护 |
| Eh | eHIVE | 基于 Ensembl 的分布式流程系统 | ✅ 活跃维护 |
| En | ENSEMBL API | Ensembl 基因组数据库应用程序接口 | ✅ 活跃维护 |
| Eb | ENSEMBL BROWSER | Ensembl 基因组可视化浏览器,支持多物种基因组查看 | ✅ 活跃维护 |
| Gx | GALAXY | 开放的基于 Web 的生物信息学分析平台,无需编程基础 | ✅ 活跃维护 |
| Kn | KNIME | 数据分析与工作流平台,支持生物信息学插件 | ✅ 活跃维护 |
| Gb | GBROWSE | 通用基因组浏览器,支持本地基因组可视化 | ⚠️ 维护较少(已有 JBrowse 替代) |
| Sk | SeqMonk | 用于大规模测序数据可视化与分析的工具 | ✅ 活跃维护 |
| Nc | NCBI-MAPVIEWER | NCBI 基因组图谱可视化工具 | ⚠️ 已被 NCBI Genome Data Viewer 替代 |
七、工具套件与 API(ToolKit & APIs)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Bj | BIOJAVA | 面向生物信息学的 Java 开源框架 | ✅ 活跃维护 |
| Br | aoRUBY | 生物信息学 Ruby 脚本工具 | ⚠️ 维护较少 |
| La | LAGAN | 全基因组多序列比对工具 | ❌ 已停止维护 |
| Ap | APOLLO | 基因组注释协作编辑工具 | ✅ 活跃维护(Apollo 2) |
| Ig | IGB | Integrated Genome Browser,交互式基因组可视化工具 | ✅ 活跃维护 |
| Da | DALLIANCE BROWSER | 基于网页的轻量级基因组浏览器 | ⚠️ 维护较少 |
| Ag | ARGO | 基因组拼接可视化工具 | ❌ 已停止维护 |
| Iv | IGV | Integrative Genomics Viewer,最广泛使用的基因组可视化工具之一 | ✅ 活跃维护 |
| At | ARTEMIS | 基因组序列查看与注释工具 | ✅ 活跃维护 |
八、数据库与数据仓库(Database / Warehouse)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Bc | BIOCONDUCTOR | R 语言生物信息学分析软件包集合,涵盖基因组、转录组、表观组分析 | ✅ 活跃维护 |
| Vc | VCFtools | VCF 格式变异文件处理与统计分析工具集 | ✅ 活跃维护 |
| Cd | CO-HIT | CD-HIT,蛋白质与核酸序列聚类工具,常用于去除冗余序列 | ✅ 活跃维护 |
| Bm | aoMART | BioMart,用于大规模生物数据整合与查询的数据挖掘工具 | ✅ 活跃维护 |
| Ta | TAVERNA | 科学工作流管理与执行平台 | ⚠️ 维护较少 |
| Pl | PLINK | 全基因组关联分析(GWAS)工具包 | ✅ 活跃维护(PLINK 2.0) |
| Sa | SAMtools | SAM/BAM 格式比对文件处理与分析标准工具 | ✅ 活跃维护 |
| Jb | JBROWSE | 下一代基于 Web 的基因组浏览器 | ✅ 活跃维护(JBrowse 2) |
| Mb | MrBayes | 贝叶斯系统发育推断工具 | ✅ 活跃维护 |
九、结构可视化工具(Structure Visualisation)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Ms | SWISS-MODEL | 蛋白质同源建模服务器,用于预测蛋白质三维结构 | ✅ 活跃维护 |
| Hh | HHpred | 蛋白质同源检测与三维结构预测服务器 | ✅ 活跃维护 |
| Ps | PSI-MED | 蛋白质结构相关分析工具 | ⚠️ 信息有限 |
| Qi | QIME | 微生物组数据分析工具(QIIME 的变体表示) | ✅ 活跃维护(QIIME 2) |
| Pic | PICARD | 基于 Java 的 NGS 数据处理工具集,常与 GATK 配合使用 | ✅ 活跃维护 |
| Ge | GenABEL | 基因组关联与表达分析 R 包 | ❌ 已停止维护 |
| Pn | PhenoCons | 表型保守性分析工具 | ⚠️ 信息有限 |
十、学术免费工具(Tools Free for Academics)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Bl | BLAT | BLAST-like 快速比对工具,由 UCSC 开发 | ✅ 活跃维护 |
| Vm | VMATCH | 大规模序列模式匹配工具 | ⚠️ 维护较少 |
| Cm | CROSSMATCH | 高度精确的序列比对程序,常用于序列修剪 | ⚠️ 维护较少 |
| Pc | PCAP | 大规模全基因组鸟枪法拼接工具 | ❌ 已停止维护 |
| Fg | FGENESH | 快速自动基因预测工具,用于真核生物基因注释 | ✅ 活跃维护(商业版) |
| Gn | GENSCAN | 经典真核生物基因结构预测工具 | ⚠️ 维护较少 |
| Bh | BioWarehouse | 生物数据仓库集成工具 | ❌ 已停止维护 |
| Ga | GATK | 基因组分析工具包,用于高通量测序数据中的变异检测 | ✅ 活跃维护 |
| Pm | PAML | 利用最大似然法进行分子进化分析的工具 | ✅ 活跃维护 |
| Ro | ROSETTA | 蛋白质结构预测与设计软件套件 | ✅ 活跃维护 |
| Cr | CHIMERA | 蛋白质三维结构可视化与分析工具 | ✅ 活跃维护(ChimeraX) |
| Dl | DALI | 蛋白质结构比对服务器 | ✅ 活跃维护 |
| Sh | SSAHA2 | 序列搜索与比对工具,适合大型基因组 | ⚠️ 维护较少 |
| Fa | FASTA | 经典序列相似性搜索工具,BLAST 的前身 | ✅ 活跃维护 |
| No | NOVOALIGN | 高精度短读长比对工具,尤其适合 SNP 分析 | ✅ 活跃维护(商业版) |
| Ab | ABYSS | 用于短读长数据的大规模基因组拼接工具 | ✅ 活跃维护 |
| Mk | MAKER | 自动化真核生物基因组注释工具 | ✅ 活跃维护 |
| Mr | seRDEEP | 深度学习辅助 RNA 编辑分析工具 | ⚠️ 信息有限 |
| Uc | UCSC | UCSC 基因组浏览器,最重要的基因组可视化平台之一 | ✅ 活跃维护 |
| Pt | PATHWAY TOOLS | 代谢通路数据库构建与分析软件 | ✅ 活跃维护 |
| Sw | sRNA workbench | 小 RNA 分析工具包 | ⚠️ 维护较少 |
| Mo | Modeller | 蛋白质同源建模工具,用于预测三维结构 | ✅ 活跃维护 |
| Pmo | PyMOL | 蛋白质三维结构可视化与分析工具,科研界标准工具之一 | ✅ 活跃维护 |
十一、商业工具(Commercial Tools)
| 缩写 | 全名 | 简介 | 维护状态 |
|---|---|---|---|
| Zm | ZOOM | 高速短读长比对工具 | ⚠️ 维护较少 |
| Ca | CaLAM | 序列比对工具 | ⚠️ 信息有限 |
| Oz | OLIGOZIP | 寡核苷酸分析工具 | ⚠️ 信息有限 |
| Ne | NEWBLER | Roche 454 测序数据拼接工具 | ❌ 随 454 平台退市已停止维护 |
| Pp | PIPELINE PILOT | 拖拽式科学数据流程管理平台(Dassault Systèmes) | ✅ 活跃维护(商业版) |
| Gs | GENESPRING | 基因表达数据分析平台(Agilent) | ✅ 活跃维护(商业版) |
| Cb | CLC BIO | CLC Genomics Workbench,综合性基因组数据分析平台(QIAGEN) | ✅ 活跃维护(商业版) |
| An | AvadisNGS | NGS 数据分析平台 | ⚠️ 维护状态不明 |
| Pk | PHYML | 基于最大似然法的系统发育树构建工具 | ✅ 活跃维护 |
维护状态说明
| 符号 | 含义 |
|---|---|
| ✅ 活跃维护 | 近年仍有版本更新,社区活跃,建议使用 |
| ⚠️ 维护较少 | 功能稳定但更新缓慢,可使用但需关注替代品 |
| ❌ 已停止维护 | 官方已不再更新,建议寻找现代替代工具 |
数据来源:Eagle Genomics · Elements of Bioinformatics | 整理时间:2025 年