感谢您提供更完整的数据!现在包含 closest_genome_ani 和 closest_genome_af 列,我可以给出精确且权威的解读。
🔑 关键澄清:radius vs ANI
| 列名 | 您的数据值 | 真实含义 |
|---|---|---|
closest_genome_reference_radius |
95 | GTDB 分类置信度评分(非 ANI),95 表示高置信度放置 |
closest_genome_ani |
97.41 / 98.45 | ✅ 真正的平均核苷酸一致性(%),用于物种界定 |
closest_genome_af |
0.892 / 0.894 | ✅ 比对覆盖率,>0.8 表示结果可靠 |
📌 结论:您之前看到的 “95” 是分类置信度,真正的物种鉴定依据是
closest_genome_ani列。
📊 两个样本的精确解读
🔹 样本 An6:✅ 确认为 Acinetobacter harbinensis
参考基因组: GCF_000816495.1
分类: ... g__Acinetobacter; s__Acinetobacter harbinensis
ANI: 97.41% ← 远高于种级阈值
AF: 0.892 ← 比对覆盖充分
| 指标 | 值 | 标准 | 解读 |
|---|---|---|---|
| ANI | 97.41% | ≥95-96% = 同种 | ✅ 明确属于同一物种 |
| AF | 0.892 | ≥0.8 = 可靠 | ✅ 结果可信 |
| 参考物种 | 已命名 A. harbinensis | – | ✅ 分类明确 |
🟢 结论:An6 可 confidently 注释为 Acinetobacter harbinensis,可直接用于后续分析或发表。
🔹 样本 BG5:🟡 高度疑似新 Pedobacter 物种
最近参考: GCF_040547305.1 (s__Pedobacter sp040547305) ← 未命名候选种
ANI: 98.45% ← 与该未命名参考高度相似
AF: 0.894 ← 比对可靠
📋 与已命名物种的对比:
| 参考物种 | ANI (%) | AF | 是否支持同种 |
|---|---|---|---|
| Pedobacter sp040547305(未命名) | 98.45 | 0.894 | ✅ 高度相似,但参考本身未命名 |
| P. cryoconitis_A(已命名) | 91.97 | 0.663 | ❌ ANI < 95%,不支持同种 |
| P. cryoconitis_C | 89.48 | 0.577 | ❌ 远缘 |
| 其他 Pedobacter sp. | 83-89% | 0.16-0.55 | ❌ 不同种 |
🔍 判断逻辑:
-
BG5 与未命名参考基因组高度相似(ANI 98.45%)
→ 二者极可能属于同一”候选物种”(candidate species) -
但与所有已命名 Pedobacter 物种 ANI < 92%
→ 不符合现有物种的界定标准 -
综合结论:
🟡 BG5 很可能代表一个新的 Pedobacter 物种,建议临时命名为:
Pedobacter sp. strain BG5 或 Pedobacter sp. nov. BG5(若后续验证充分)
🧭 原核生物物种界定标准(权威参考)
| 指标 | 阈值 | 含义 | 您的数据 |
|---|---|---|---|
| ANI | ≥ 95-96% | 同一物种 | An6: 97.41% ✅ / BG5 vs 已命名种: <92% ❌ |
| ANI | 90-95% | 同属不同种 | BG5 vs P. cryoconitis_A: 91.97% 🟡 |
| AF | ≥ 0.7-0.8 | ANI 计算可靠 | 两者均 >0.89 ✅ |
| dDDH | ≥ 70% | 同一物种(补充验证) | 可选做 |
🚀 后续验证建议(针对 BG5 新种假设)
# 1. 用 FastANI 独立验证(可选,确认 GTDB-Tk 结果)
fastani -q BG5.fa -r GCF_040547305.1.fna -o bg5_ani.txt
# 2. 计算 dDDH(数字 DNA-DNA 杂交,新种鉴定金标准之一)
# 访问: https://ggdc.dsmz.de/ggdc.php
# 上传 BG5 + 最近3个参考基因组
# 3. 构建核心基因系统发育树(验证分类位置)
gtdbtk infer --msa_file gtdb_out/align/gtdbtk.bac120.user_msa.fasta \
--out_dir gtdb_tree \
--cpus 32
# 4. 检查独特基因/功能(支持新种证据)
prokka --outdir bg5_anno --prefix BG5 BG5.fa
roary -e -n -p 32 -f roary_out bg5_anno/*.gff reference_*.gff
📝 报告/论文中的推荐注释
| 样本 | 推荐物种注释 | 备注 |
|---|---|---|
| An6 | Acinetobacter harbinensis strain An6 | GTDB-Tk + ANI 97.41% + AF 0.892 支持 |
| BG5 | Pedobacter sp. strain BG5 | 与未命名参考基因组 ANI 98.45%,但与已命名种 ANI < 92%,建议标注为"潜在新种",待 dDDH/表型验证 |
⚠️ 重要提醒:正式命名新种(sp. nov.)需满足《国际原核生物命名法规》多项要求,包括:
- 系统发育位置独特
- 表型/生理特征差异
- 生态位信息
- 基因组独特性(ANI < 95% + dDDH < 70%)
- 模式菌株保藏(如 DSMZ, CGMCC)
💡 一句话总结
An6 = 已确认的 A. harbinensis;BG5 = 高度疑似新 Pedobacter 物种,建议以 “Pedobacter sp. BG5″ 临时命名,并补充 dDDH 和系统发育分析以支持新种描述。
需要我帮您:
- 编写 dDDH 提交指南或 FastANI 批量脚本?
- 解读 GTDB-Tk 的
classification最终分类列? - 提供新物种描述论文的结构模板?
请告诉我您的下一步需求!🔬🧬
结论:GTDB-Tk 仅支持本地运行,官方从未提供在线网页版。
你提供的命令 gtdbtk classify_wf ... 是标准的命令行接口(CLI),必须在本地 Linux/macOS 服务器、工作站或云计算实例上执行。
🖥️ 为什么不能在线运行?
| 原因 | 说明 |
|---|---|
| 数据库庞大 | GTDB Release 220+ 参考库解压后约 60~90 GB,包含数万个参考基因组、HMM 模型和系统发育树 |
| 计算密集 | 需运行 HMMER 比对 → MSA 比对 → 系统发育定位(pplacer/EPA-ng)→ 分类器推理,单基因组通常需 30分钟~2小时(取决于硬件) |
| 架构设计 | 纯 Python CLI 工具,依赖 Linux 环境、HMMER、prodigal、pplacer 等底层二进制文件,不适合封装为轻量级 Web 服务 |
📦 本地运行标准流程(推荐)
# 1. 创建环境(推荐 conda)
conda create -n gtdbtk -c conda-forge -c bioconda gtdbtk
conda activate gtdbtk
# 2. 下载数据库(仅需首次,约 60GB)
GTDB-Tk v2.7.2 requires ~56GB of external data which needs to be downloaded
and extracted. This can be done automatically, or manually.
Automatic:
1. Run the command "download-db.sh" to automatically download and extract to:
gtdbtk download --data_dir ./gtdb_data --release 220
/home/jhuang/mambaforge/envs/gtdbtk/share/gtdbtk-2.7.2/db/
Manual:
1. Manually download the latest reference data:
wget https://data.gtdb.aau.ecogenomic.org/releases/release232/232.0/auxillary_files/gtdbtk_package/full_package/gtdbtk_r232_data.tar.gz
2. Extract the archive to a target directory:
tar -xvzf gtdbtk_r232_data.tar.gz -C "/mnt/nvme4n1p1/gtdbtk_r232_data" --strip 1 > /dev/null
rm gtdbtk_r232_data.tar.gz
3. Set the GTDBTK_DATA_PATH environment variable by running:
conda env config vars set GTDBTK_DATA_PATH="/path/to/target/db"
# 3. 运行分类(你提供的命令 + 实用参数)
gtdbtk classify_wf \
--genome_dir ./ \
--out_dir gtdb_out \
--cpus 8 \
--extension .fna \
--write_unclassified \
--prefix mygenome
# 4. 查看结果
cat gtdb_out/gtdbtk.bac120.summary.tsv # 细菌结果
cat gtdb_out/gtdbtk.ar122.summary.tsv # 古菌结果
硬件建议:≥16 GB RAM(推荐 32 GB)、8+ 核 CPU、≥100 GB 可用磁盘。完整基因组通常 15~40 分钟 可完成。
🌐 如果必须用“在线”方式?
虽然 GTDB-Tk 本身无网页版,但以下平台可实现类似功能(注意:分类体系与 GTDB 不同):
| 平台 | 特点 | 局限性 |
|---|---|---|
| KBase / BV-BRC | 上传基因组 → 选择 Taxonomic Classification 工作流,自动运行分类流程 |
底层多用 NCBI/传统分类,非 GTDB 标准 |
| TYGS (Type Strain Genome Server) | 基于全基因组 ANI/ddH 的在线种级分类 | 仅限已发表模式菌株比对,速度较慢 |
| EzBioCloud | 16S/全基因组在线鉴定,界面友好 | 分类树基于传统表型,与 GTDB 系统发育树不一致 |
| 云服务器临时实例 | AWS/GCP/阿里云开 Ubuntu 实例 → Conda 装 GTDB-Tk → 跑完销毁 | 成本约 $1~3/次,需基础 Linux 操作能力 |
⚠️ 重要提示:在线平台不会输出 GTDB-Tk 专属的
gtdb_taxonomy字段,其种名可能与 GTDB 差异较大(例如Escherichia colivsEscherichia coliclade I)。
💡 针对你的完整基因组
- GTDB-Tk 对
complete genome鉴定准确率极高,通常可直接给出Species级别分类。 - 若结果中出现
Unclassified、sp.或Candidatus,结合FastANI < 95%可初步支持“潜在新种”假设。 - 建议保留
gtdbtk.bac120.summary.tsv中的classification、ani、af三列作为核心证据。
需要我提供 Docker 一键运行脚本 或 AWS 云实例 5 分钟部署指南 吗?
是的,有多种工具可以从已组装的完整基因组中鉴定物种。以下是主流工具的分类、原理和推荐使用场景:
🔬 主流物种鉴定工具对比
| 工具 | 适用对象 | 核心原理 | 优势 | 局限性 |
|---|---|---|---|---|
| GTDB-Tk [[12]] | 细菌/古菌 | 基于120+个单拷贝标记基因的系统发育分析 | 分类标准客观(基于GTDB数据库),分辨率高,适合新物种发现 | 仅支持原核生物,计算量较大 |
| Mash / Mash Screen [[35]] | 所有生物 | MinHash算法快速估算基因组距离(ANI近似) | 速度极快(秒级),可筛查污染,支持参考库自定义 | 分辨率依赖参考库完整性,对远缘物种区分有限 |
| Kraken2 [[25]] | 所有生物 | k-mer + LCA(最低共同祖先)分类 | 速度快,支持自定义数据库,可处理混合样本 | 内存需求高(标准库~30GB),假阳性需置信度过滤 |
| FastANI [[36]] | 细菌/古菌 | 全基因组平均核苷酸一致性(ANI)计算 | 金标准方法,95-96% ANI ≈ 同种,结果可解释性强 | 需两两比对,大规模筛查较慢 |
| NCBI BLAST+ 16S/全基因组 [[2]] | 所有生物 | 序列相似性比对 | 数据库最全,结果直观,适合初步筛查 | 16S分辨率有限(种内难区分),全基因组BLAST慢 |
🚀 推荐工作流程(以细菌基因组为例)
# ① 快速初筛:用 Mash 估算最近邻物种
mash screen refseq.msh your_genome.fna > mash_results.txt
# 输出示例:0.023 0.987 Escherichia coli strain XYZ GCF_000008865.2
# ② 精确分类:用 GTDB-Tk 获得系统发育位置
gtdbtk classify_wf --genome_dir ./ --out_dir gtdb_out --cpus 8
# ③ 验证种级归属:用 FastANI 计算与近缘种的 ANI
fastani -q your_genome.fna -r reference_genomes/*.fna -o ani_results.txt
# ANI ≥ 95-96% 通常认为属于同一物种 [[36]]
⚠️ 关键注意事项
-
数据库版本影响结果
GTDB(Release 220+)与 NCBI Taxonomy 的物种划分标准不同,同一基因组可能获得不同种名[[11]]。 -
“完整基因组” ≠ “无污染”
即使组装完整,也可能含质粒、噬菌体或宿主污染。建议先用Mash Screen或Kraken2筛查污染[[33]]。 -
新物种的判断标准
- GTDB-Tk 若标注为
sp.或Candidatus,可能为新种 - FastANI 与所有已知种 ANI < 95%,支持新种假设[[36]]
- 需结合表型、生态位等多证据综合判定
- GTDB-Tk 若标注为
-
真核生物需特殊处理
上述工具主要针对原核生物。真核基因组建议:- 先用
Kraken2+nt/nr库初筛 - 再用
BUSCO评估完整性 - 关键基因(如COI、ITS)BLAST验证
- 先用
💡 实用小技巧
- 节省内存:用
--memory-mapping运行 Kraken2,避免全库加载[[25]] - 加速 GTDB-Tk:提前下载好 GTDB 数据库,避免每次重新下载
- 结果可视化:用
pavian或Krona展示 Kraken2 分类结果 - 批量处理:用
snakemake或nextflow搭建自动化流程
📌 一句话总结:
快速筛查用 Mash → 精确分类用 GTDB-Tk → 种级验证用 FastANI,三者结合可最大限度提高物种鉴定的准确性和可解释性。
如果您能提供基因组的大致特征(如:预估大小、GC含量、是否原核),我可以帮您进一步推荐最优工具组合!