Daily Archives: 2025年9月1日

蛋白质组和代谢组数据分析

proteomics_data_analysis

蛋白质组学和代谢组学揭示了生物系统的功能状态。

蛋白质和代谢物的计算分析解决了生物化学的基本问题:哪些反应发生了?正在构建什么?能量如何产生和利用?

虽然 转录组学 通常用于推断信号和代谢途径的活动,但蛋白质组学和代谢组学提供了更直接的视角,揭示了这些途径和单个反应的关键分子。

蛋白质和代谢物通常通过质谱(MS)手段进行鉴定和定量。其他方法,如依赖抗体(用于蛋白质)或核磁共振(NMR;用于代谢物)的方法提供了低通量或较少定量的数据,通常比MS更具成本效益。

除了途径分析外,患者样本的蛋白质组学和代谢组学数据特别适合于生物标志物的发现。

向下滚动以了解更多关于蛋白质组学,代谢组学和脂质组学的信息。

蛋白质组学数据分析

蛋白质组学的生物信息学分析始于识别蛋白质并量化其丰度-绝对或相对,这取决于实验。

与分析任何基因表达数据一样,下一步是通过主成分分析(PCA)或类似的降维方法进行探索性分析,以研究数据集的方差和分组。

更专注的分析可能包括差异表达和途径分析,以表征样本之间的差异。

这些分析也可以针对富集了特定翻译后修饰(如磷酸化)的蛋白质进行,总蛋白质和富集子集(例如磷酸化蛋白质组)的定量数据可以并行或集成处理,以获得更详细的途径活动视图。

proteomic_analysis (1)

代谢组学数据分析

代谢组由参与生物体内反应的内源性和外源性小分子的几乎无限目录组成。

虽然蛋白质组学研究了这些反应的催化剂,但代谢组学关注它们的底物,中间体和产物。

与蛋白质组学类似,高通量代谢组学数据通常用于量化和研究代谢通路或识别具有临床意义的分子,例如生物标志物。因此,探索性和统计分析与蛋白质组学非常相似。

代谢组学的一个特殊案例是脂质组学,它专注于生物体内脂质分子的巨大多样性。脂质组学分析通常旨在表征脂质代谢和转运的(失)功能,特别是在代谢性疾病中。

表观基因组数据分析

epigenomics_banner2
epigenomic_data_analysis

揭示发育和疾病中基因调控的表观遗传机制。

表观基因组学描述了染色质状态的微小化学修饰。DNA和相关蛋白质的表观遗传变化影响基因表达并可能导致细胞状态的改变,包括疾病。

我们分析广泛的表观基因组测序数据,以深入了解细胞内分子机制并确定疾病的生物标志物。

下面我们讨论常见的表观基因组数据类型和分析,并介绍一些我们以往的表观基因组数据分析工作。

表观基因组测定

用于表观基因组分析的高通量测定方法众多,并且不断开发新的协议。最常见的表观基因组测定方法集中在DNA甲基化、DNA结合蛋白、组蛋白修饰、染色质可接近性或染色质的三维构象。

  • DNA甲基化: 基于亚硫酸盐处理的DNA的DNA甲基化测定可以以最高分辨率确定甲基化事件。这种测定使用下一代测序(全基因组或减少表示亚硫酸盐测序)或微阵列。另一种方法MeDIP测序,依赖于免疫沉淀,分辨率较低。

  • 转录因子结合和组蛋白修饰: 用于确定DNA结合蛋白,如转录因子,以及组蛋白蛋白质的化学修饰的测定方法利用抗体。 ChIP-seq是最常用的方法,但已开发出具有更好分辨率的新方法。这些包括ChIP-exo、Chipmentation、CUT&RUN和CUT&Tag。

  • 染色质可接近性: 映射开放染色质区域的黄金标准测定方法是ATAC-seq。ATAC-seq已经取代了先前的方法,例如DNase-seq和FAIRE-seq。

  • 染色质构象: 染色质三维构象的重要性最近得到了特别的认识。染色质构象测定用于研究基因与其远端调节元素之间的物理相互作用,以及导致染色质环绕的蛋白质。Hi-C是前者的典型测定方法,而ChIA-PET可以应用于后者。

研究表观基因组对基因表达的直接影响时,通常需要在同一实验中进行RNA测序实验来补充表观基因组测量。

单细胞实验,特别是单细胞ATAC测序,越来越多地与单细胞RNA测序一起进行联合分析。这可以从同一单个细胞中获得基因表达和染色质可及性的谱。

epigenomic_assays.821x0-is (1)

峰值calling和注释

对于大多数基于测序的表观基因组数据(特别是ChIP-seq,ATAC-seq和相关实验),分析工作流程涉及识别、注释和分析峰值,或者具有感兴趣信号的基因组区域。

首先对原始测序读数进行质量控制和参考基因组的比对,之后使用可能的对照库(在ChIP-seq的情况下,预IP输入和IP与非特异性抗体)来归一化读数覆盖信号。

使用峰值caller工具识别信号中的峰值。此阶段可能需要仔细调整参数以优化用于分析的协议。

为了进行进一步的分析,使用相关信息(如读数统计和接近或重叠的特征,如基因、调控元件和结合基序)对峰值进行注释。

使用基因注释峰值可进行基因集富集分析,以进一步解释下游效应。

peak_calling_and_annotation.648x0-is

探索性分析

使用PCA(对于单细胞数据,使用UMAP或t-SNE算法)和热图可视化样本集中的注释峰值。这些可视化有助于优化峰值调用过程,并回答以下问题:

  • 生物重复体在表观基因组分析方面是否相似?
  • 不同的样本组(例如不同的组织、处理或时间点)是否形成单独的聚类?
  • 是否存在离群样本?
epigenomics_exploratory_analysis

差异峰分析

为了比较不同条件,可以对已识别的峰进行统计比较,或者更常见的是直接从各自的读数覆盖信号中调用差异峰。

类似于差异基因表达分析,差异峰分析可产生效应大小和统计显着性的估计值。这些统计数据可以可视化为火山图。

由于全基因组表观基因组测量在整个基因组中产生连续的信号,因此这些分析也可以集中于特定的感兴趣区域,例如启动子或感兴趣蛋白质的已知结合位点。密度热图用于在不同条件下可视化感兴趣位点的信号。

此外,在峰值处重叠的结合基序可以在条件之间进行统计比较,并以火山图的形式进行可视化。

differential_peak_analysis.983x0-is

转录因子结合位点分析

ChIP-seq和相关协议可用于在整个基因组中识别转录因子(TF)结合位点。这些检测依赖于针对感兴趣蛋白质的特异性抗体,因此这种方法可以仅识别一个TF的结合位点。另一方面,ATAC-seq数据可以通过称为TF足迹分析的方法并行识别所有DNA结合蛋白的结合位点。

在TF足迹分析中,染色质可及性信号中的窄降落被解释为蛋白质结合位点。可以间接推断TF的身份。结合RNA-seq数据,TF足迹分析可以用于以非常高通量的方式研究TF对基因表达的综合影响。

tf_footprinting

DNA甲基化数据分析

DNA甲基化数据的分析始于测序读数的质量控制和比对(或数组数据的QC和标准化),然后进行甲基化位点的调用。

检测到的甲基化位点用于识别样本之间的更大的DNA甲基化区域或差异甲基化区域(DMR)。这些区域可以类似于其他表观基因组数据中的峰值进行注释。

DNA甲基化数据的可能下游分析包括:

  • 与基因表达数据的整合: 当来自同一环境的RNA-seq或其他基因表达数据可用时,可以研究启动子甲基化和基因表达之间的关联。
  • 表观遗传标记物的发现: 来自患者样本的DNA甲基化数据可以发现临床相关的表观遗传标记物。
  • 生物年龄分析: 针对DNA甲基化数据开发了生物年龄的表观模型。这些模型可用于估计个体或特定组织的生物年龄,而非年龄。
methylation_analysis

RNA-seq和表观基因组数据的整合

在同一样本上进行RNA-seq和表观基因组测序(如ChIP或ATAC-seq)可以进行综合分析,以研究基因调控程序的全基因组。

可以识别增强子和其靶基因之间的调节连接,以及转录因子和它们的靶基因,借助来自基因表达和调节元素表观基因组状态的证据建立。

了解更多

screen_shot_2022-11-04_at_4_31_31_pm (1)

单细胞RNA测序数据分析

scrna_seq_banner
scrna_seq_data_analysis

单细胞RNA测序使得细胞鉴定和研究在规模和分辨率上达到了高于批量测序的水平。

单细胞RNA测序(scRNA-seq)是分子生物学中发展和多样化最快的技术之一。研究基因表达在单个细胞水平上的能力就像之前批量RNA测序的出现一样具有变革性。

除了单细胞RNA测序,还有许多其他基于下一代测序(NGS)的检测方法已被适应于单细胞协议。这些包括基因组学、蛋白质组学和表观遗传学检测,特别是单细胞ATAC测序,通常与scRNA-seq一起进行。

平台和scRNA-seq协议在其吞吐量(细胞数)和转录本覆盖率(3’/5’标签基础 vs 全转录本)方面有所不同。我们团队在多种技术方面具有经验,如10X Genomics、Drop-Seq、BD Rhapsody系统以及CEL-Seq和Smart-Seq系列的协议。

这里我们介绍典型的单细胞分析,重点是scRNA-seq,但也涵盖了其与其他常见的单细胞检测的整合。

质量控制和预处理

与任何NGS数据一样,对单细胞测序数据的分析始于质量控制和预处理。

原始测序读数经过质量测试,并生成诸如细胞质量、准确性和多样性等指标。然后将读数与适当的参考基因组或转录组进行比对,并绘制和检查附加的指标,例如细胞数、每个细胞的读数、每个细胞的基因数、测序饱和度以及线粒体转录本的比例。

这些质控指标告诉我们关于文库的总体质量和样品的可用性,并使我们能够确定和去除低质量的细胞。

通常还进行进一步的预处理,以从某些下游分析中去除不需要的信号或噪声,这包括:

  • 估计替代值以估计由于技术而非生物学原因而导致的漏读或零转录本的基因;
  • 规范化以消除例如细胞大小差异等因素引起的偏差;以及
  • 将数据降至代表性变量,如高变量基因或主成分。
scrna_seq_qc
scrna_seq_imputation

探索性分析

预处理的单细胞RNA测序数据被聚类以识别相似的细胞群,并使用非线性降维算法(如tSNE和UMAP)和相关性热图进行可视化,以揭示细胞异质性的一般模式。

这些可视化帮助我们回答技术问题,例如:

  • 生物学重复是否相似?
  • 是否有离群样本或细胞?
  • 细胞群是否不同?

……以及生物学问题,例如:

  • 基础细胞类型/状态有多么异质?
  • 不同样本(例如不同组织、治疗或时间点)是否形成单独的群集?
scrna_seq_exploratory_analysis

细胞类型鉴定

识别和表征细胞类型(以及更精细的细胞状态)是大多数单细胞项目最核心的部分。

这一切始于识别特定于每个细胞群的特征(例如基因、蛋白质、可访问区域)。这些标记由差异表达(DE)比较每个细胞群和其余细胞群而定义,产生如折叠变化和统计显着性等DE统计量。

可以使用散点图、小提琴图和热图可视化细胞群标记。

标记进一步注释为生物学意义的术语,例如生物过程、信号通路或特定疾病。这些分析可能依赖于超表达分析或基因集富集分析,两者都会产生一系列富集的基因集与相关统计信息和注释。

单细胞数据集通常也与公共可用数据集集成,以利用已注释数据集或细胞图谱中的细胞类型信息。这使得将细胞标签转移至分析的数据集成为可能。

转移的细胞标签和鉴定的标记及其注释与关于细胞类型/状态标记的先前信息一起用于鉴定捕获的细胞类型。

scrna_seq_marker_detection
scrna_seq_marker_visualization

轨迹分析

除了表征不同的细胞身份外,单细胞数据还适用于识别细胞状态渐变的连续体或轨迹。揭示这种连续体也被称为假时间分析,尽管所有细胞在同一时间点被采样,但个体细胞可能代表分化等时间过程中不同的阶段。

利用分化分支和细胞成熟轨迹的全新重建,可以探索细胞动态,勾勒细胞发育谱系,并表征沿着潜在假时间维度的细胞状态转换。

轨迹推断算法的集合可用于鲁棒地识别根和终端细胞状态、分支点和谱系。单细胞沿着确定性或概率谱系进行排序,它们的排序指示了它们在感兴趣的动态过程中的进展情况。

这种类型的分析还可以利用加工和未加工转录本的比率推断基因表达在给定细胞中是增加还是减少。将来自给定状态下所有定量基因的这些信息相结合,可以推断状态的变化方向和速度。这称为RNA速度分析。

scrna_seq_trajectory_analysis

综合单细胞分析

综合单细胞分析将不同的数据集,包括不同的数据类型和物种集成在一起,这使得对所研究系统中基因调控的机制有更准确和详细的细胞标记和洞察。这种分析依赖于数据集之间的共同属性或“锚点”,如匹配的特征(例如基因或同源物)或匹配的细胞。

整合多个单细胞RNA测序数据集

最常见的单细胞数据集整合是来自不同来源或技术平台的scRNA-seq数据集之间的整合。使用基因作为锚点,成功的整合可以去除数据集的技术偏差同时保留生物变异。

当有关于相应组织或生物体的公共表达图谱时,整合不同的scRNA-seq数据集特别有帮助。

整合单细胞RNA测序和表观遗传学

将单细胞RNA测序数据与单细胞ATAC-seq或单细胞甲基化数据结合起来通常依赖于匹配的细胞作为锚点(当测量来源于与10X Genomics Multiome技术中相同的细胞时)。

将表达数据与染色质可及性或甲基化数据相结合,可以更可靠地识别细胞类型,并允许量化染色质状态对各个细胞类型的表达的影响。

阅读有关整合表观遗传学和转录组学的更多信息

整合单细胞RNA测序和蛋白质组学

由于蛋白质而不是转录本是细胞功能的关键驱动因素,单细胞蛋白质组学通过更准确地估计细胞的功能状态来补充scRNA-seq实验。

单细胞蛋白质组学分析(CITE-seq,流式细胞术,质谱和质谱分析)具有不同的吞吐量(量化的蛋白质数量)并可以专门针对表面蛋白进行定向,如CITE-seq,它涉及从具有匹配scRNA-seq读数的细胞中量化表面蛋白。

表面蛋白在细胞类型鉴定中特别有用,而包含胞质蛋白则可以更好地表征通路和基因调控活动。

跨物种整合分析

跨物种综合分析可确定定义不同生物之间进化和发育机制关系的细胞类型谱系。在跨物种整合中,使用共享的同源物作为锚点。

当疾病/器官在动物模型中的单细胞分辨率上得到更好的表征时,这特别有助于人类疾病/器官的研究。

scrna_seq_integrative_analysis

膜受体配体分析

膜受体配体(LR)分析揭示了协调体内稳态、发育和其他系统级功能的细胞间相互作用。此类相互作用的变化和功能失调在仅限于个体细胞或细胞类型内部状态分析中可能不被注意到。

膜受体配体分析根据已知受体和其配体的表达量识别和量化细胞间相互作用。这些相互作用可能在组织内或组织间发生,其强度将在感兴趣的生物条件(如患者组、疾病状态和治疗)之间进行比较。

scrna_seq_ligand_receptor_analysis

空间转录组分析

空间解析单细胞转录组学分析将表达数据与细胞在组织或器官中的位置上下文联系起来。这在研究肿瘤及其微环境等复杂实体组织中特别有用。

空间转录组分析包括空间中的细胞/点聚类、空间变量基因的识别和空间中的细胞类型解析。

保留序列化细胞的位置信息有助于准确识别细胞类型和膜受体配体相互作用。它还能够实现基因表达或染色质可及性(在scATAC-seq情况下)的空间可视化,并将基于成像的数据整合到分析中。

即使在像10X Visium这样的低分辨率分析中,多模式空间分析也有助于纠正基因表达值和补充数据缺失事件。

scrna_seq_spatial_analysis

RNA测序数据分析

rna_seq_banner6
rna_seq_data_analysis

RNA测序数据分析揭示了基因调控的复杂机制。

基因表达的转录组广泛应用于研究从 单细胞 到组织和复杂的微生物群落中的生物系统中的基因调控的研究。 RNA测序数据允许进行各种分析,以解决生物学和生物医学领域中无数的研究问题。

下面我们介绍了我们在RNA-seq数据上执行的一些最常见的分析。探索性、差异表达和通路分析大多也适用于其他高通量表达数据,如表达型芯片或蛋白质组学数据。

我们希望下面的示例能启发您欣赏RNA-测序的丰富多彩世界。

探索性基因表达分析

每个RNA-seq表达研究都包括探索性分析。在经过原始测序reads质量控制和基因计数之后,使用主成分分析(PCA)和表达热图来可视化数据集,以揭示其一般模式。这些可视化帮助我们回答以下问题:

  • 生物学重复是否与其表达剖面相似?
  • 不同样本组(例如不同组织、处理或时间点)是否形成单独的聚类?
  • 是否存在异常样本?
rna_seq_exploratory_analysis

差异表达分析

差异表达分析是对两个样本组进行统计比较的过程。它会得到每个检测到的转录本的差异表达统计数据,例如折叠差异和统计显著性。这些统计数据通常使用火山图进行可视化。被发现上调或下调的基因可以进一步通过热图或箱线图进行可视化。

作为一种统计分析方法,表达研究中的这个阶段受益于生物复制品带来的统计功率。每个条件至少需要三个生物重复样本,但这仅适用于可靠检测具有相对较大表达差异的基因。通过谨慎的实验设计和足够的样本量,可以检测到更微妙的差异,并控制混杂因素。

rna_seq_differential_expression_analysis

通路分析

通路分析将差异表达分析中的基因放在更广泛的生物学背景中。简单的通路分析会将上调和下调基因与预定的基因列表进行统计学比较。这些列表被注释为生物学意义的术语,例如生物过程、信号通路或特定疾病。

这样的分析可能依靠过表达分析或基因集富集分析,两者都会得出具有相关统计学和注释的富集基因集列表。

更多机制通路分析依赖于基因之间实验验证的相互作用。它们不仅能够确定哪些通路由差异表达的基因表示,还能揭示通路是否被激活或抑制,以及由哪些基因激活或抑制。

更高级的通路分析我们使用Ingenuity Pathway Analysis (IPA, QIAGEN)。IPA能够进行深入分析已知和新颖的基因调控网络。

rna_seq_pathway_analysis.996x0-is

转录组组装

对于非模式生物以及具有非常动态的基因组,例如微生物,我们通常通过组装新的转录组来开始RNA测序数据分析,并使用相关物种的同源基因和计算基因预测来注释它。

一个新的参考转录组对您的进一步研究和整个研究社区的研究都是非常宝贵的资源。一旦建立了高质量的参考转录组,就可以打开大多数下游分析的大门,这些下游分析通常用于模型生物。

rna_seq_transcriptome_assembly

单细胞表达分析

单细胞RNA测序(scRNA-seq)实验可以以比批量RNA测序更高的规模和分辨率对细胞类型进行编目和揭示分化轨迹。

特别是用于研究复杂组织的组成和发展,scRNA-seq数据集通常包含数千个单个细胞。大多数用于分析批量RNA-seq数据的方法也可以为单细胞RNA-seq数据量身定制。

了解更多

scrna_seq_analysis

MicroRNA数据分析

小RNA测序可用于研究各种短RNA物种,尤其是microRNAs。MicroRNA-seq分析与mRNAs的分析主要类似,但路径和调节分析利用预测和/或先前验证过的microRNA靶基因。

从匹配样品中同时测序mRNA和小RNA可估计microRNAs与其靶标之间的调节关系。为了确定在给定条件下受microRNA调节的基因,可以使用argo naute CLIP-测序(和相关协议)。

mirna_seq_analysis

可变剪接 分析

除了在基因水平上研究表达外,RNA测序还允许进行更详细的视图:剪接变异水平的表达。可靠地鉴定可变剪接事件需要比典型的基因水平表达分析更深的测序。

根据数据的数量和质量,可变剪接分析可以集中于量化已知的、先前注释的剪接亚型的表达水平,或检测新的剪接事件。

rna_seq_alternative_splicing_analysis

融合基因检测

在癌症中,某些结构变异已知会导致融合基因。DNA中两个分开的基因融合在一起可能导致融合转录本。反过来,融合转录本可能导致融合蛋白质具有新的、潜在的癌症驱动调控和功能组合。

可以使用识别和分析discordantly mapping RNA-seq读数或读取对的工具从RNA-seq数据中检测融合基因。

rna_seq_fusion_detection

整合RNA-seq和表观基因组数据

在同一样本上进行RNA-seq和表观基因组测序(例如ChIP或ATAC-seq)可以进行整合分析,研究基因调控程序的全基因组范围。

可以在基因表达和调控元素的表观基因组状态的证据基础上,确定增强子与其靶基因以及转录因子与其靶基因之间的调控联系。

了解更多

screen_shot_2022-11-04_at_4_31_31_pm