总体流程

HUMAnN (HMP Unified Metabolic Analysis Network) 是 bioBakery 工作流中用于分析宏基因组功能的核心工具[[12]]。通路丰度的计算是一个多步骤的递归过程：

计算步骤：

基因家族丰度 → 2. 反应丰度 → 3. 通路丰度

详细计算原理

第1步：基因家族丰度（Gene Family Abundance）

从原始测序 reads 开始：

使用 BLASTX 将 reads 比对到参考数据库（如 UniRef）
根据比对质量、覆盖度、序列长度进行加权
生成 RPK（Reads Per Kilobase）值

公式：

基因丰度 = Σ(比对权重) / 基因长度(kb)

其中每个 read 的总权重为 1.0，根据比对质量分配到多个基因匹配上[[9]]。

第2步：反应丰度（Reaction Abundance）

每个生化反应由一个或多个基因催化：

反应丰度 = Σ(催化该反应的所有基因丰度)

第3步：通路丰度（Pathway Abundance）

这是最关键的一步。通路包含多个反应，反应之间有不同的关系：

核心原则： 通路丰度由”最弱环节”（weakest link）决定[[1]]

计算方法：

串联反应（必须全部存在）：使用调和平均数（harmonic mean）
并联反应（可选路径）：使用最大值（max）
可选反应：只有当其丰度大于必需反应的调和平均数时才计入[[1]]

最终通路丰度 = 通路中丰度最低的关键反应

具体示例

示例场景：糖酵解通路（Glycolysis）

假设糖酵解通路包含 5 个关键反应（R1-R5）：

葡萄糖 → R1 → G6P → R2 → F6P → R3 → ... → 丙酮酸

基因-反应关系：

R1: 由基因 GK1 和 GK2 催化（冗余）
R2: 由基因 PGI 催化
R3: 由基因 PFK 催化
R4: 由基因 ALDO 催化
R5: 由基因 GAPDH 催化

测序后得到的基因丰度（RPK单位）：

GK1:  8.0
GK2:  4.0
PGI:  10.0
PFK:  6.0
ALDO: 7.0
GAPDH: 5.0

计算步骤：

① 计算反应丰度：

R1 = GK1 + GK2 = 8.0 + 4.0 = 12.0  (冗余基因相加)
R2 = PGI = 10.0
R3 = PFK = 6.0
R4 = ALDO = 7.0
R5 = GAPDH = 5.0

② 计算通路丰度： 由于糖酵解是串联反应（所有步骤必须完成），使用”最弱环节”原则：

通路丰度 = min(R1, R2, R3, R4, R5)
          = min(12.0, 10.0, 6.0, 7.0, 5.0)
          = 5.0 RPK

解释： 该样本中糖酵解通路的丰度为 5.0 RPK，意味着”最弱环节”（R5/GAPDH）的覆盖度为 5.0。这表示通路中至少有 5.0 个”完整拷贝”的活性[[1]]。

归一化处理

为什么需要归一化？

原始 RPK 值受测序深度影响，不能直接跨样本比较[[1]]。

示例：

样本 A：总 reads = 1000万，通路丰度 = 5.0 RPK
样本 B：总 reads = 2000万，通路丰度 = 5.0 RPK

虽然都是 5.0 RPK，但样本 A 的相对丰度更高！

归一化方法：

CPM（Counts Per Million）或 RPKM：

归一化丰度 = (原始RPK / 总RPK) × 1,000,000

HUMAnN 输出的 pathabundance_relab.tsv 文件已经是归一化后的相对丰度[[11]]。

输出文件说明

HUMAnN 生成两个关键文件：

文件	含义	取值范围
`pathcoverage.tsv`	通路覆盖度（存在/缺失概率）	0-1
`pathabundance.tsv`	通路丰度（相对拷贝数）	0 及以上

覆盖度 vs 丰度：

覆盖度 = 0.8：表示 80% 置信度该通路存在
丰度 = 5.0：表示该通路约有 5 个完整拷贝（在归一化前）[[9]]

分层分析（Stratification）

HUMAnN 还能计算每个物种对通路的贡献：

总通路丰度 = 物种A贡献 + 物种B贡献 + 未分类贡献

例如：

糖酵解通路总丰度: 5.0 RPK
├─ Escherichia coli:  3.0 RPK (60%)
├─ Bacteroides fragilis: 1.5 RPK (30%)
└─ Unclassified: 0.5 RPK (10%)

这帮助您理解哪些微生物在驱动特定功能[[21]]。

关键要点总结

✅ 通路丰度 = 最弱关键反应的丰度（木桶原理）
✅ 单位：RPK（归一化前）或 CPM/RPKM（归一化后）
✅ 跨样本比较：必须使用归一化值（pathabundance_relab.tsv）[[15]]
✅ 解释：丰度 5.0 表示通路中最弱环节有 5.0 RPK 的覆盖度
✅ 准确性：考虑了基因冗余、反应关系、可选步骤等生物学复杂性

参考文献

bioBakery Forum – Pathway abundance calculation [[1]]
HUMAnN SOP – HMP Data Coordination Center [[9]]
HUMAnN3 Documentation – Huttenhower Lab [[12]]
bioBakery 3 publication (Nature Methods, 2021) [[13]]

HUMAnN Pathway Abundance 计算方法

基本原理

HUMAnN (HMP Unified Metabolic Analysis Network) 是 biobakery 工具集的一部分，用于从宏基因组数据中计算功能通路的丰度。

计算步骤

1. 基因家族定量 (Gene Family Quantification)

首先将测序 reads 比对到 UniRef 基因家族数据库
计算每个基因家族的丰度（reads per kilobase, RPK）

2. 通路映射 (Pathway Mapping)

将基因家族映射到 MetaCyc 通路
一个通路通常包含多个反应步骤，每个步骤可能由多个基因家族催化

3. 通路丰度计算 (Pathway Abundance Calculation)

关键公式：

通路丰度 = min(该通路中所有反应步骤的丰度)

其中：

每个反应步骤的丰度 = 该步骤中所有基因家族丰度的总和
通路的最终丰度 = 所有反应步骤丰度的最小值（瓶颈原则）

具体示例

假设情况

假设有一个简单的代谢通路 “Glycolysis”（糖酵解），包含 3 个反应步骤：

反应步骤 1：葡萄糖 → 葡萄糖-6-磷酸

由基因家族 UniRef90_A 和 UniRef90_B 催化
UniRef90_A 丰度 = 100 RPK
UniRef90_B 丰度 = 50 RPK
步骤 1 丰度 = 100 + 50 = 150 RPK

反应步骤 2：葡萄糖-6-磷酸 → 果糖-6-磷酸

由基因家族 UniRef90_C 催化
UniRef90_C 丰度 = 80 RPK
步骤 2 丰度 = 80 RPK

反应步骤 3：果糖-6-磷酸 → 果糖-1,6-二磷酸

由基因家族 UniRef90_D 和 UniRef90_E 催化
UniRef90_D 丰度 = 200 RPK
UniRef90_E 丰度 = 120 RPK
步骤 3 丰度 = 200 + 120 = 320 RPK

通路丰度计算

Glycolysis 通路丰度 = min(步骤1, 步骤2, 步骤3)
                    = min(150, 80, 320)
                    = 80 RPK

为什么用最小值？

这遵循”木桶原理”（瓶颈效应）
通路的整体通量受限于最慢/最少的反应步骤
步骤 2 只有 80 RPK，即使其他步骤丰度很高，整个通路的最大通量也只能是 80

归一化 (Normalization)

HUMAnN 还会进行归一化处理：

1. RPK (Reads Per Kilobase)

RPK = (比对到基因的 reads 数) / (基因长度 kb)

2. RPKM/CPM (可选)

RPKM = RPK / (总百万 reads)

3. 相对丰度 (Relative Abundance)

通路相对丰度 = (通路 RPKM) / (所有通路 RPKM 总和) × 1,000,000

单位：CPM (Counts Per Million)

您的数据示例

从您的输出看：

otu_table()   OTU Table:         [ 1097 taxa and 2 samples ]

这 1097 个 “taxa” 实际上是 1097 个 MetaCyc 通路，每个通路的丰度值是经过以下处理的：

原始丰度：基于上述最小值原则计算
归一化：转换为相对丰度（sum = 1 或 100%）
输出文件：pathabundance_relab.tsv 中的值就是相对丰度

关键要点

特点	说明
计算方法	取通路中所有反应步骤的最小丰度
单位	通常是相对丰度（0-1 或 0-100%）
生物学意义	反映通路的潜在代谢能力
优势	考虑了通路的完整性，不是简单加和
局限性	无法区分活跃/非活跃通路（需要转录组验证）

注意事项

⚠️ 重要提醒：

通路丰度反映的是基因潜力（gene potential），不是实际代谢活性
一个通路存在 ≠ 该通路正在被使用
需要结合转录组（RNA-seq）或代谢组数据才能确定实际活性
对于您的 n=1 样本，只能做描述性比较，无法统计推断

M	T	W	T	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Microbial bioinformatics

Microbial bioinformatics uses computational tools to analyze genomes, track evolution, and study functions in microorganisms, including bacteria and viruses.

HUMAnN 通路丰度计算方法详解 (Data_Tam_Metagenomics_2026_Soil)

总体流程

计算步骤：

详细计算原理

第1步：基因家族丰度（Gene Family Abundance）

第2步：反应丰度（Reaction Abundance）

第3步：通路丰度（Pathway Abundance）

具体示例

示例场景：糖酵解通路（Glycolysis）

归一化处理

为什么需要归一化？

归一化方法：

输出文件说明

分层分析（Stratification）

关键要点总结

参考文献

HUMAnN Pathway Abundance 计算方法

基本原理

计算步骤

具体示例

假设情况

通路丰度计算

归一化 (Normalization)

您的数据示例

关键要点

注意事项

Leave a Reply Cancel reply