Author Archives: gene_x

微生物生物信息学

摘要

2030年的微生物生物信息学将继续保持其充满活力和创造性的学科特性,为不断增长的新序列数据增值,同时拥抱新技术和新方法。数据库和搜索策略将难以应对数据洪流,手工整理在迈向百万微生物基因组时代将不可持续。微生物分类学必须适应一种新情境,即大多数微生物通过序列分析被发现和表征。基因组测序将成为临床和研究实验室的常规方法,对用户友好的可解释输出提出了新的需求。“物联网”将渗透到医疗系统中,甚至医院管道系统可能都有自己的IP地址,可以与病原体基因组序列整合。微生物群热潮将继续,但潮流将从分子条形码转向宏基因组学。众包分析将与云计算碰撞,但防止微生物序列数据的误解和过度推销需要永恒的警惕。手持测序仪的输出将在移动设备上进行分析。开源培训材料将满足培养熟练劳动力的需求。随着我们大胆迈向21世纪第三个十年,微生物序列空间仍将是最终前沿!

微生物生物信息学在2030年将何去何从?

让我们先回顾过去。过去二十年,我们在微生物基因组测序能力上取得了惊人的进步(Loman and Pallen, 2025)。微生物生物信息学在很大程度上跟上了由此产生的数据洪流,现已明确成为一个独立的学科,由全球热心的微生物生物信息学家社区推动(Loman and Watson, 2023)。我们预计未来几年这一社区将继续增长,全球的微生物学家将应对已有的和新兴的挑战,包括抗菌素耐药性、微生物生物多样性、理解微生物群及其基因(微生物群落)、合成生物学以及基因组测序作为临床和研究实验室常规方法的采用(Cameron et al., 2024; Koser et al., 2024; Brown et al., 2025; Luheshi et al., 2025; Shanahan, 2025)。

值得强调的是,将生物信息学应用于微生物基因、基因组和宏基因组的研究确实提供了独特的挑战——与针对固定、相对易处理的人类、动物或植物基因组不同,我们必须处理来自数千种微生物病原体、数百万种共生微生物以及多达十亿种环境微生物物种的基因组信息(Locey and Lennon, 2026):一个由无数亿基因组成的分布式动态系统,比人类基因组大许多数量级。由此产生的序列数据洪流显然给微生物生物信息学带来了大数据问题(Eisenstein, 2025)。

当然,接近2030年时,有些事情将保持不变。专业微生物生物信息学家仍将主要在Linux操作系统上运行命令行程序,通常使用由开源软件构建的管道,结合自制脚本,尽管这些脚本将用Python而不是Perl编写(Myhrvold, 2024),或者可能使用一种尚未发明的新脚本语言。然而,不应排除商业软件包的作用,特别是在需要认证标准操作程序的应用中。不幸的是,到2030年,生物信息学作为微生物基因组学的支持技术与作为一个独立科学学科之间仍可能存在动态张力,这将反映在微生物生物信息学家的职业结构和晋升中的不确定性(Pevzner, 2004; Watson, 2023)。

随着本十年接近尾声,微生物基因组和宏基因组将越来越多,数据库和搜索策略是否能够应对仍不确定。即使在2026年,也没有简单的方法下载和搜索人类积累的宏基因组数据,而NCBI的所谓非冗余数据库的BLAST搜索在大量相同或近似序列的压力下开始吃力。这只会变得更糟——例如,到2030年,我们将拥有数十万甚至数百万个关键细菌物种的基因组序列,如大肠杆菌或结核分枝杆菌。需要新的数据存储和分析方法——例如,开发真正的非冗余BLAST数据库。

对微生物流行病学和微生物群体遗传学感兴趣的人,无论是研究还是临床环境,都需要应对从基于少数基因序列的系统(如多位点序列分型,Maiden, 2006)向全基因组方法的转变(Perez‐Losada et al., 2023; Ashton et al., 2026; Pankhurst et al., 2026)。一些活动,如个体爱好者或专门研究社区对序列或元数据的手工整理和注释,在迈向百万微生物基因组时代将不可持续。相反,机器学习和人工智能可能需要填补这一空白(Yip et al., 2023)。遗憾的是,数据库和其他生物信息学资源的资金持续性问题在未来几年可能仍未解决(Parkhill et al., 2020)。

在经历了激烈竞争后(Loman et al., 2022),高通量测序市场最近已趋于近乎垄断状态,Illumina短读长测序技术占据主导地位。虽然这种技术非常适合基因组重测序等应用,专注于检测单核苷酸变体,但它难以应对微生物基因组和宏基因组的多样性,特别是在查看移动遗传元素或辅助基因组时(Stoesser et al., 2024)。单分子长读长技术在2026年已可用(例如Pacific Biosystems或Oxford Nanopore),但仍处于边缘,尽管在展示原理应用(Loman et al., 2025; Quick et al., 2025, 2026)和开发专用生物信息学工具方面已取得进展(Loman and Quinlan, 2024; Rhoads and Au, 2025; Watson et al., 2025)。未来几年这一情况将如何变化尚不清楚——现有长读长技术会成为主流,还是会有新玩家进入市场?无论发生什么,已有和新的测序方法都将推动新的生物信息学工具的开发。同样,专注于单细胞基因组学和转录组学(Lasken and McLean, 2024)或微生物功能基因组学的方法(如RNA-Seq,Creecy and Conway, 2025;或Tn-Seq,Kwon et al., 2026)的新实验室技术将继续需要新软件。

微生物基因组学和宏基因组学正全速进入临床领域和全球微生物生物多样性绘图的努力(Pallen et al., 2020; Didelot et al., 2022; Robinson et al., 2023; Kyrpides et al., 2024; Brown et al., 2025; Luheshi et al., 2025; Spang et al., 2025)。在两种环境中,微生物分类学以其多相方法需要实验室培养和表型研究,已然崩溃,单纯无法应对大多数微生物通过大分子序列分析来识别和表征的时代(Chun and Rainey, 2024; Ramasamy et al., 2024; Thompson et al., 2025; Baltrus, 2026)。希望到2030年,新的分类学能够诞生,由微生物多样性生物信息学的创造力爆炸驱动并推动(Varghese et al., 2025)。同样,合成生物学从仅读取到主动写入DNA序列的愿望,无论是创建合成微生物还是在数据处理和存储方面的新方法,都将带来新的机会和挑战(Goldman et al., 2023; Boeke et al., 2026; Hutchison et al., 2026)。

微生物生物信息学与人类医疗的碰撞已导致新工具的开发,这种学科的创造性碰撞将改变生物信息学家的前景。在这里,我们可能会看到用于分析微生物基因组流行病学的工具的改进——例如,认识到病原体的细胞群体,就像癌症一样,可能是克隆的,但并不一定均质(Jamal‐Hanjani et al., 2025; Paterson et al., 2025)。新模型和新软件还需要认识到宿主内病原体多样性的问题,以及病原体系统发育并不简单映射到传播链上的事实(Didelot et al., 2024; Gardy, 2026)。但我们希望,即使如一些人所建议,宿主内细菌多样性使重建传播网络更困难,到2030年这将不再是一个不可逾越的问题(Worby et al., 2024)。

将微生物基因组学和生物信息学整合到临床实践中将带来新的需求,管道不仅需要可信、稳健和可重复,而且需要产生易于解释的、临床友好的输出,例如分析金黄色葡萄球菌和结核分枝杆菌基因组的程序Mykrobe(Bradley et al., 2025)。序列数据与临床元数据的整合将很困难,特别是精准医学需要精确的本体(Dugan et al., 2024)——例如,在分析医院暴发时,下一代NHS生物信息学家需要高度关注“床”和“床位空间”之间的区别。随着“物联网”渗透到医疗系统中,患者、仪器甚至医院家具或管道都将拥有自己的IP地址和GPS智能芯片,提供可与病原体基因组序列整合的信息,他们将在这些努力中得到协助(Hao and Wang, 2025)。

作为诊断方法的宏基因组学可能更接近常规实践(Loman et al., 2023; Doughty et al., 2024; Pallen, 2024; Wilson et al., 2024),但从宏基因组中可靠地区分病原体基因组——特别是如果短读长技术仍占主导地位——将是一个巨大的挑战(Alneberg et al., 2024)。

对微生物群的当前热潮看起来将继续,因此需要新的生物信息学工具来检测“病态微生物群”并将其与疾病状态联系起来(Forslund et al., 2025)。也许到2030年,潮流将从分子条形码方法(以16S核糖体RNA基因序列为代表,被称为独眼国王,Forney et al., 2004)转向更广泛采用的霰弹式宏基因组学(Jovel et al., 2026)。如果是这样,将需要新工具将宏基因组转化为微生物生态学的标准输出(稀疏曲线、多样性指数等)。同样,新的工具将在宏基因组学、宏转录组学、代谢组学和系统生物学的接口处出现(Franzosa et al., 2024)。

一个潜在的担忧是非专家进行的微生物基因组和微生物群分析的野蛮前沿的增长,他们通过不完全理解的管道手动处理数据,然后天真地解释结果,而没有老练专家的健康怀疑(Bhatt et al., 2023; Branton et al., 2023; Laurence et al., 2024; Salter et al., 2024; Strong et al., 2024; Ackelsberg et al., 2025; Afshinnekoo et al., 2025)。永恒的警惕可能是遏制微生物基因组占星术等价物的代价!

在硬件和软件供应方面,微生物生物信息学正从典型的自管服务器或由单一用户或研究小组运行的集群中脱离出来。一方面是移动设备应用程序的开发(Rose et al., 2023; Wong et al., 2023; Nguyen et al., 2024),与掌上测序的兴起并行(Quick et al., 2026),因此到2030年,测序和分析可能在现场或更靠近患者的地方进行。国家或跨国项目的集中化努力则朝另一个方向发展,旨在标准化创建、存储和分析微生物序列数据的协议,特别是在医疗保健方面,尽管到2030年这些努力可能尚未达成稳定的全球解决方案(Moran‐Gilad et al., 2025)。

另一个潜在趋势是全球生物信息学家进行的众包微生物生物信息学分析的兴起——已经有一些原理验证案例(Rohde et al., 2021; Gardy et al., 2025),到2030年我们可能会看到更多这种情况,特别是在应对公共卫生紧急情况时。同样,微生物生物信息学家可能会拥抱云计算(Drake, 2024),这在努力和成本上带来规模经济,解放终端用户免于维护系统和设置常用软件的麻烦,同时改进管道和数据的共享,从而提高生物信息学分析的可重复性。这里的一个有前景的例子是英国的微生物生物信息学云基础设施(CLIMB)项目,它为微生物学社区的终端用户提供通过OpenStack开源云计算环境提供的虚拟机访问(Connor et al., 2026)。

在2030年前微生物生物信息学的最后一个挑战是满足培训和培养熟练劳动力的需求(Via et al., 2023; Watson‐Haigh et al., 2023)。云计算可能在这里发挥作用,为研讨会和黑客马拉松以及研究小组提供标准化环境。同样,我们可以预期适合生物信息学训练营的开源培训材料将继续增加,以及新的工作流程和数据整合系统的开发,如基因组虚拟实验室(Afgan et al., 2025)。

结论

2030年的微生物生物信息学将继续是一个充满活力和创造性的学科,为不断增长的新序列数据增值,同时拥抱新技术和新方法。随着我们大胆迈向21世纪第三个十年,微生物序列空间仍将是最终前沿!

Workflow for single-cell RNAseq (scRNAseq)

/media/jhuang/Elements(Denise_ChIPseq)/Data_Jingang/GSE163973_KF_NS_done/seurat0**.Rmd[R]

https://nbisweden.github.io/workshop-scRNAseq/

https://github.com/NBISweden/workshop-scRNAseq/

https://github.com/NBISweden/workshop-scRNAseq/blob/master/labs/seurat/seurat_06_celltyping.qmd

https://github.com/NBISweden/workshop-scRNAseq/blob/master/labs/seurat/seurat_07_trajectory.qmd

Project Workflow

The analysis is organized into seven steps, each corresponding to an R Markdown file:

  1. 01_qc – Quality control of the raw data.
  2. 02_dimension_reduction – Dimensionality reduction (e.g., PCA, UMAP).
  3. 03_integration – Data integration using the Harmony library to align datasets and mitigate batch effects. This step also includes normalization (NormalizeData) and selection of highly variable genes (FindVariableFeatures) for each dataset before integration.
  4. 04_clustering – Identification of cell clusters.
  5. 05_dge – Differential gene expression analysis.
  6. 06_celltype – Cell type annotation.
  7. 07_trajectory
  8. 08_spatial – if applicable

This structure should help you follow the workflow step by step.

Harmony in R: Integration vs. Batch Effect Removal

Harmony is a tool commonly used in single-cell RNA-seq analysis. Its main purpose is data integration, but it also effectively removes batch effects. Here’s a breakdown:


1. What Harmony Does

  • Aligns multiple datasets (from different batches, labs, conditions, or technologies) in a shared low-dimensional space (e.g., PCA).
  • Reduces technical variation (batch effects) while preserving biological differences.
  • Produces a “corrected” dataset suitable for downstream analysis like clustering or visualization.

2. Integration vs. Batch Effect Removal

Term Meaning
Batch Effect Removal Focuses only on removing technical variation between batches. May distort biological differences.
Integration Aligns datasets from different batches or conditions, minimizing batch effects while keeping biological variation intact. Harmony achieves this by iteratively adjusting cells’ embeddings.

3. Conceptual Diagram

Batch 1: A1 A2 A3 →

Batch 2: B1 B2 B3 —-> [Harmony] —> Integrated Space (similar cell types cluster together) Batch 3: C1 C2 C3 →

  • Arrows indicate the mapping of cells from separate batches into a shared low-dimensional space.
  • Cells of the same type cluster together, regardless of batch.

4. Summary

  • Harmony = integration tool.
  • Batch effect removal = part of the integration process.
  • Integration = alignment of datasets with biological signals preserved.