RNA-seq和ChIP-seq数据的整合分析

screen_shot_2022-11-04_at_3_33_30_pm

“你如何整合RNA-seq和ChIP-seq数据?”

我听到过许多次生物学家问这个问题(您可以将ChIP-seq替换为ATAC-seq、bisulphite-seq或任何其他 表观基因组数据 类型)。

这个问题很有意思。

生成和分析单个基于NGS的测序(如RNA-seq或ChIP-seq)的数据不像几年前那样罕见。这归功于新一代“NGS原生态”生物学家,他们在培训的早期就掌握了基本的“组学”数据分析技能,这在很大程度上消除了生物学家前往统计学系或计算机科学系的必要,向擅长编码的研究人员敲门,建议“合作”来分析他们的数据。

但是,整合不同的数据模式是另一回事,这是研究项目常常停滞的阶段。

这个想法很简单:如果您闻到、品尝和尝试一款葡萄酒,您的大脑可以整合这些多感官输入并推断出葡萄的产地,比如果只依赖一个感官更好。

那么,什么是可以采用您生成的所有可能的NGS数据并得出有洞见的多组学大脑?

我已经学会了错误答案:“这真的取决于您的研究问题。” 正确的答案是“相关性”。那是简短的答案——长的答案是“仔细分析各个数据类型,相关性,过滤,可视化,解释——迭代几次——你可能会得到一些非常好的结果!”

工作流程

为了介绍这种数据整合方法,让我们假设下面可视化的实验,在几个时间点进行了RNA测序和表观基因组测序实验,以及在第一个时间点后施加了一种处理。表观基因组测序实验可以是针对一种或多种组蛋白修饰的ChIP-seq(或CUT&Tag)实验,也可以是ATAC-seq等染色质可及性实验。

multiomic_ngs_experiments

(这里讨论的综合分析不需要时间序列数据;可以使用 单细胞数据 沿伪时间轨迹分析表达和表观状态,或者仅比较来自不同条件的批量实验的单一时间点数据。)

问题是,在治疗和最终改变的细胞状态之间有哪些分子机制?我们能否给出一个多步骤的描述,通过基因和基因产物网络级联的事件来重新编程细胞以适应干扰?

在转化研究的背景下,识别关键元素,如转录因子或增强子,这些元素使得细胞进入疾病状态,可以为新疗法提供可能的靶点。

下面我们看到一个识别此类级联中活跃的顺式和反式调节路径的工作流程。它从分别处理表观基因组和转录组数据开始,并通过将每个基因的表达与其假定的顺式调节元素 (CREs) 的信号相关联,将这两种模态结合起来。然后继续通过识别驱动染色质变化的转录因子 (TFs),通过在 CREs 中识别 TF 结合基序并将 TF 的表达与这些假定的结合位点的状态相关联来确定这些 TFs。

integrative_analysis

工作流程中的关键步骤包括:

  • 分类顺式调节元素: 将峰值解释为 CREs,可以通过聚类分析将其按时间模式分组。这可能会产生几个 CREs 类别,其表观状态可以基于观察到的模式 (例如,激活、短暂激活、恒定活性) 和测量到的表观基因组信号 (例如,在 ATAC-seq 情况下“可访问”,在 H3K27ac ChIP-seq 情况下“活跃”) 进行分类。CRE 群集可以进一步通过富集结合基序进行注释。
  • 按照它们的时间表达模式将基因分组: 同样,基因通过聚类分析分组,并基于观察到的模式 (例如,“上调”,“恒定表达”) 进行分类。基因簇通过基因集富集分析进行注释,以将它们与生物功能和过程联系起来。
  • 将 CREs 与基因联系起来: 将假定的 CRE 与基因联系起来依赖于两者之间的基因组近距离关系以及 CRE 的表观活性与基因表达的相关性。
    • 将 TFs 与目标基因联系起来: 建立 TF 与目标基因之间的联系依赖于 TF-CRE 链接信息 (结合基序、相关性)、CRE-目标基因链接信息 (见上文) 以及 TF-目标相关性。这种对可能的 TF-目标链接进行的多组学过滤可以识别所有这些活跃的顺式调节路径的网络。

下一步实验是什么?

上述方法描述了一个研究过程中涉及的调节程序的丰富描述。有几种方法可以进一步丰富和验证研究结果,例如:

  • 通过染色体构象捕获验证CRE-靶标相互作用: Hi-C等方法可以证明基因组范围内远距离位点之间的物理相互作用。
  • 通过基因组编辑验证CRE-基因相互作用: 验证调节元件在驱动基因表达方面的作用的黄金标准实验是使用CRISPR-Cas9删除CRE,并在野生型和编辑细胞中量化目标基因的表达。
  • 通过ChIP-seq验证TF-CRE相互作用: 仅仅因为在显然活跃的调节元件中存在一个结合位点并不是TF-CRE相互作用的直接证据。可以使用针对感兴趣的TF的特异性抗体进行ChIP-seq(或CUT&RUN或CUT&Tag)实验,以验证因子的物理存在。

了解更多

以上我们介绍了一种整合表观基因组和基因表达数据的方法,特别是揭示cis和trans调节相互作用。了解更多关于NGS数据分析的内容:

  • RNA-seq数据分析
  • 表观基因组数据分析
  • 单细胞数据分析

突变分析在癌症研究中

癌症研究是生命科学中的巨头。其资金、发表的研究和生成的数据量,都超过了生物学和医学中的所有其他领域。因此,许多广泛应用于生物学的计算分析首先是为了研究癌症和突变而开发的。在这个概述中,我们将介绍癌症研究中的典型突变分析。

引言

与任何生物医学研究一样,生物信息学常常被用于从大量的分子和临床数据中提炼新的见解。鉴于高通量测量在基础生物学和临床研究中的快速发展,生物信息学已成为癌症研究的一部分。越来越多的研究组在这个领域是由“正常”和计算生物学家组成的混合实验室。

由于湿和干生物学之间的分界正在消失,生物信息学不仅被用于从数据中提炼见解,还被用于推动研究。研究经费越来越多地授予开发计算方法而非单纯应用计算方法的癌症研究。

这里我们专注于已建立的计算方法,从突变的角度研究癌症的生物学和治疗。这些分析旨在回答以下问题:

  • 哪些致突变的过程或突变导致了癌症?
  • 哪些突变使癌症具备了耐药等能力?
  • 哪些突变可以预测患者的疾病状况?

实验

癌症研究中的突变分析确定了肿瘤细胞DNA序列中的相关变化。除了确定单个突变外,突变模式也可以被研究,以确定突变本身的原因或癌症的克隆结构。

突变分析中的基础数据往往来自下一代DNA测序(NGS)实验。DNA测序可以应用于各种实验设置,我们在这里介绍最常见的设置。

experiments

肿瘤与正常组织

突变分析的经典设置涉及对同一患者的手术切除癌细胞和正常非癌细胞的DNA进行测序。正常细胞通常是来自血样的淋巴细胞,是一种有价值的患者特异性对照,可以与肿瘤DNA序列进行计算比较。以这种方式对多个患者进行测序,可以将突变与临床变量(如疾病亚型或治疗反应)相关联。

治疗前后

另一种典型实验是将经过治疗的癌细胞与未经治疗的癌细胞进行对比。在这种情况下,突变分析可以确定由治疗(如放疗)引起的突变或使癌细胞耐受治疗的突变。这种类型的实验通常依赖于动物模型或细胞系。

人群规模和家庭研究

第三组实验旨在确定易患癌症的生殖细胞变异体。与臭名昭著的标记癌症的体细胞突变不同,生殖细胞变异体存在于个体的所有细胞中,因此可以传给后代。它们以多态性形式存在于人群中。通常,确定诱发肿瘤的遗传决定因素涉及人群规模基因分型或对患有遗传性癌症的家庭进行测序。

DNA测序的类型

应用的DNA测序类型主要通过限制分析特定的基因组区域而影响随后的生物信息学分析。全基因组测序(WGS)能够分析基因组中的任何突变,包括广泛的非编码区域。全外显子测序(WES)限制分析基因组的编码蛋白质部分的突变。定向测序进一步限制分析到预定的基因座位 – 例如已知的癌症基因组成的panel。

dna_seq

鉴定和注释突变

DNA测序实验的原始数据进行质量控制,并与参考基因组进行比对。变异可以使用突变caller流程(mutation caller pipeline)鉴定出来。在特定调用体细胞突变时,突变caller需要将肿瘤和正常DNA-seq数据作为输入,以区分体细胞和生殖细胞突变。

突变caller被设计用于查找特定类型的突变,例如小变异体、拷贝数变异体或结构变异体。小变异体包括一个或几个核苷酸的替换、插入和缺失。拷贝数变异体是影响更大的DNA段的扩增或删除事件。结构变异体包括更复杂的DNA改变,例如染色体间易位和DNA片段的倒位。

鉴定出的突变可以注释其变异等位基因频率、种群等位基因频率(在生殖细胞变异体的情况下)、对氨基酸序列的影响和预测的致病性。这些注释对于选择各种下游分析中相关的突变非常重要。

mutation_calling

将突变与临床和表型变量相关联

突变分析工作流程的关键部分是可视化鉴定的突变并将其与其他变量相关联。典型的可视化包括癌症图(瀑布图),显示多个基因在分析的患者中的突变状态,以及棒棒糖图,突出显示突变沿着变异(和编码蛋白质)基因的氨基酸序列的位置。

统计检验可用于比较不同样本组(不同癌症类型、原发性与转移性肿瘤、治疗前后等)中突变基因。突变频率、几率比和P值是此类分析中报告的典型统计量。同样,突变可以与连续变量(如患者年龄、肿瘤大小或血液生物标志物水平)相关联。

生存分析可用于将突变与临床终点(如死于癌症或复发)相关联。生存分析依赖于Kaplan-Meier估计器、Cox回归或机器学习方法。(了解更多关于生存分析的信息。)

mutation_analyses

突变特征分析

肿瘤DNA中观察到的不同类型核苷酸替换的频率 carries information on their cause。简单来说,一种致突变因子可能导致主要是T>A替换,而另一种可能导致G>C替换。比较观察到的替换频率的模式,可以定量地描述肿瘤中先前表征的突变特征。这可以揭示癌症的病因,而突变特征则是潜在的独立预后标志。

克隆分析

癌症是一群肿瘤细胞的动态种群,其在体内不断增殖和扩散。了解癌症如何实现增殖、逃避治疗和转移可以通过构建癌细胞家族谱来研究。当从同一患者的多个时间点或转移瘤中测序肿瘤样本时,可以研究癌症的克隆结构,并进一步将出现的女儿克隆(带有特定突变)与疾病进展事件相关联。

基于组织DNA测序的克隆分析易受数据质量和测序深度的影响。一种好的方法是首先使用全基因组或外显子组测序鉴定突变,然后对最常见的突变进行超深度靶向测序,以获得准确的突变变异等位基因估计值。

其他内容?

突变分析涵盖范围更广,深入程度更深,超出了我们在此简要概述的范围。如将突变数据与其他高通量数据模式集成、预测新表位、从无细胞DNA中检测突变以及解释非编码突变等主题,都需要进行进一步的介绍!

Enable SSL on WordPress Site on Linode (Using CPanel/Direct Transfer or Certbot)

We can enable SSL on your WordPress site hosted on a Linode server either by using Let’s Encrypt with Certbot or transferring an SSL certificate from another provider (e.g., Namecheap). This guide covers both methods.


1. Using Let’s Encrypt with Certbot

1.1 Install Certbot

SSH into your Linode server:

ssh root@your_linode_ip

Install Certbot for your web server:

# For Ubuntu with Apache
sudo apt update
sudo apt install certbot python3-certbot-apache

# For Ubuntu with Nginx
sudo apt update
sudo apt install certbot python3-certbot-nginx

Generate the SSL certificate:

sudo certbot --apache    # or --nginx

Follow prompts to select your domain and enable HTTPS.

1.2 Location of SSL Certificates and Keys

When you use Certbot, your certificates and keys are stored in /etc/letsencrypt/live/yourdomain.com/:

  • Certificates (fullchain.pem)

    /etc/letsencrypt/live/yourdomain.com/fullchain.pem

    Full certificate including domain and intermediate certificates.

  • Private Key (privkey.pem)

    /etc/letsencrypt/live/yourdomain.com/privkey.pem

    Private key associated with the certificate.

  • Chain of Trust (chain.pem)

    /etc/letsencrypt/live/yourdomain.com/chain.pem

    Intermediate certificates linking your domain certificate to the root certificate.

  • Symlink to domain certificate (cert.pem)

    /etc/letsencrypt/live/yourdomain.com/cert.pem

    Your domain certificate, symlinked to fullchain.pem.

The certificates and private keys should be owned by root and should be readable only by the server.

We need to adjust the permissions for any reason:

  sudo chmod 644 /etc/letsencrypt/live/yourdomain.com/*
  sudo chmod 600 /etc/letsencrypt/live/yourdomain.com/privkey.pem

1.3 Configure Web Server

  • For Apache, update your site’s .conf file (often located in /etc/apache2/sites-available/000-default-le-ssl.conf or a similar file) with the paths to the certificate files above.
    SSLEngine on
    SSLCertificateFile /etc/letsencrypt/live/yourdomain.com/cert.pem
    SSLCertificateKeyFile /etc/letsencrypt/live/yourdomain.com/privkey.pem
    SSLCertificateChainFile /etc/letsencrypt/live/yourdomain.com/chain.pem
  • For Nginx, update the ssl_certificate and ssl_certificate_key directives (typically located in /etc/nginx/sites-available/yourdomain.com).

    server {
    listen 443 ssl;
    server_name yourdomain.com www.yourdomain.com;
    
    ssl_certificate /etc/letsencrypt/live/yourdomain.com/fullchain.pem;
    ssl_certificate_key /etc/letsencrypt/live/yourdomain.com/privkey.pem;
    }

1.4 Test SSL Configuration

Reload or restart your web server and test your site with https://yourdomain.com.

1.5 Optional: Enable Auto-Renewal

Configure certbot to auto-renew your certificates using a cron job or system timer.

sudo systemctl list-timers
sudo certbot renew --dry-run
sudo certbot certificates

2. Configure WordPress for HTTPS

WordPress needs to be updated to use HTTPS for all URLs and assets.

2.1 Update Site URL

  • Log into your WordPress admin dashboard.
  • Go to Settings > General.
  • Change both the WordPress Address (URL) and Site Address (URL) to use https:// instead of http://.

2.2 Force HTTPS

You can force WordPress to always load over HTTPS by adding rules to your .htaccess file (for Apache) or nginx.conf (for Nginx).

For Apache:

Edit the .htaccess file in your WordPress root directory and add:

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTPS} !=on
RewriteRule ^ https://%{HTTP_HOST}%{REQUEST_URI} [L,R=301]
</IfModule>

For Nginx:

In your server block, add:

server {
    listen 80;
    server_name yourdomain.com www.yourdomain.com;
    return 301 https://$host$request_uri;
}

This ensures all HTTP traffic is redirected to HTTPS. We can also use a plugin like “WP Encryption” (chosen), “Really Simple SSL” to enforce HTTPS across your WordPress site. This plugin will automatically fix any mixed-content issues (insecure resources loaded over HTTP), ensuring that your entire site loads securely.


3. Transferring SSL from Another Provider

Follow similar steps to upload the certificate, private key, and CA bundle, then update your web server configuration as described above.

基于微管的MT1-MMP运输调控人巨噬细胞对耳念珠菌(Candida auris)的吞噬作用 和 微生物合成生物学

基于微管的MT1-MMP运输调控人巨噬细胞对耳念珠菌(Candida auris)的吞噬作用

  1. 背景:耳念珠菌是一种近年来备受关注的耐药真菌,能够引起严重感染。人体的先天免疫系统,尤其是巨噬细胞(macrophages),在抵御这种病原体时发挥着重要作用。巨噬细胞通过吞噬作用(phagocytosis)来清除入侵的病菌。

  2. MT1-MMP的作用:MT1-MMP(膜型基质金属蛋白酶1)是一种位于细胞膜上的酶,通常与细胞运动、吞噬以及细胞外基质降解相关。它需要被运输到合适的细胞膜位置才能发挥作用。

  3. 微管运输:MT1-MMP 的定位和功能依赖于细胞内部的“轨道系统”——微管(microtubules)。微管为囊泡和膜蛋白的运输提供通道。研究表明,MT1-MMP 通过微管的运输才能被有效送到巨噬细胞膜的正确位置。

  4. 与耳念珠菌吞噬的关系:当MT1-MMP能够被微管正确运输并定位在细胞膜上时,巨噬细胞的吞噬功能更高效,从而增强了对耳念珠菌的清除能力。如果微管运输受阻,MT1-MMP的定位受到影响,吞噬作用就会减弱。

  5. 结论:这项研究揭示了一个新的机制,即巨噬细胞通过微管介导的MT1-MMP运输来调控对耳念珠菌的吞噬。这为理解真菌感染的免疫防御机制提供了新的视角,也可能为开发新的治疗方法(如增强免疫清除能力)提供理论基础。


微生物合成生物学(Microbial Synthetic Biology) 是合成生物学的一个重要分支,主要利用微生物(如大肠杆菌、酵母菌、放线菌等)作为“底盘细胞”或“工程细胞”,通过基因编辑、代谢工程和合成回路设计,实现新的功能或改造其代谢路径。下面用中文详细解释:

  1. 核心概念:合成生物学的目标是像“设计机器”一样去设计和组装生物系统。微生物合成生物学就是将这一理念应用于微生物中,通过重编程它们的基因组,让它们执行我们希望的任务。

  2. 方法与工具

    • 基因组编辑:利用 CRISPR-Cas、重组技术等手段对微生物的基因进行修改或插入新基因。
    • 代谢途径改造:通过调整或导入代谢通路,使微生物能够合成新的化合物(如药物、燃料、材料)。
    • 合成生物元件:设计“人工开关”、“逻辑门”或调控回路,让微生物能对外部信号做出响应。
  3. 应用领域

    • 医药:工程化微生物用于生产抗生素、疫苗或蛋白药物。
    • 能源与材料:让微生物合成生物燃料(如生物乙醇、生物丁醇)或新型材料(如生物塑料)。
    • 环境:改造微生物去降解塑料、去除重金属或进行二氧化碳固定。
    • 农业:工程微生物可促进作物生长、合成生物肥料。
  4. 意义:微生物合成生物学结合了生物学、工程学、信息科学与化学,既帮助人类理解生命系统的运行规律,也为可持续发展和生物经济提供了强有力的工具。

换句话说,微生物合成生物学就是 “用工程思维改造微生物,让它们为人类生产所需物质或执行特定功能”

蛋白质组和代谢组数据分析

proteomics_data_analysis

蛋白质组学和代谢组学揭示了生物系统的功能状态。

蛋白质和代谢物的计算分析解决了生物化学的基本问题:哪些反应发生了?正在构建什么?能量如何产生和利用?

虽然 转录组学 通常用于推断信号和代谢途径的活动,但蛋白质组学和代谢组学提供了更直接的视角,揭示了这些途径和单个反应的关键分子。

蛋白质和代谢物通常通过质谱(MS)手段进行鉴定和定量。其他方法,如依赖抗体(用于蛋白质)或核磁共振(NMR;用于代谢物)的方法提供了低通量或较少定量的数据,通常比MS更具成本效益。

除了途径分析外,患者样本的蛋白质组学和代谢组学数据特别适合于生物标志物的发现。

向下滚动以了解更多关于蛋白质组学,代谢组学和脂质组学的信息。

蛋白质组学数据分析

蛋白质组学的生物信息学分析始于识别蛋白质并量化其丰度-绝对或相对,这取决于实验。

与分析任何基因表达数据一样,下一步是通过主成分分析(PCA)或类似的降维方法进行探索性分析,以研究数据集的方差和分组。

更专注的分析可能包括差异表达和途径分析,以表征样本之间的差异。

这些分析也可以针对富集了特定翻译后修饰(如磷酸化)的蛋白质进行,总蛋白质和富集子集(例如磷酸化蛋白质组)的定量数据可以并行或集成处理,以获得更详细的途径活动视图。

proteomic_analysis (1)

代谢组学数据分析

代谢组由参与生物体内反应的内源性和外源性小分子的几乎无限目录组成。

虽然蛋白质组学研究了这些反应的催化剂,但代谢组学关注它们的底物,中间体和产物。

与蛋白质组学类似,高通量代谢组学数据通常用于量化和研究代谢通路或识别具有临床意义的分子,例如生物标志物。因此,探索性和统计分析与蛋白质组学非常相似。

代谢组学的一个特殊案例是脂质组学,它专注于生物体内脂质分子的巨大多样性。脂质组学分析通常旨在表征脂质代谢和转运的(失)功能,特别是在代谢性疾病中。

表观基因组数据分析

epigenomics_banner2
epigenomic_data_analysis

揭示发育和疾病中基因调控的表观遗传机制。

表观基因组学描述了染色质状态的微小化学修饰。DNA和相关蛋白质的表观遗传变化影响基因表达并可能导致细胞状态的改变,包括疾病。

我们分析广泛的表观基因组测序数据,以深入了解细胞内分子机制并确定疾病的生物标志物。

下面我们讨论常见的表观基因组数据类型和分析,并介绍一些我们以往的表观基因组数据分析工作。

表观基因组测定

用于表观基因组分析的高通量测定方法众多,并且不断开发新的协议。最常见的表观基因组测定方法集中在DNA甲基化、DNA结合蛋白、组蛋白修饰、染色质可接近性或染色质的三维构象。

  • DNA甲基化: 基于亚硫酸盐处理的DNA的DNA甲基化测定可以以最高分辨率确定甲基化事件。这种测定使用下一代测序(全基因组或减少表示亚硫酸盐测序)或微阵列。另一种方法MeDIP测序,依赖于免疫沉淀,分辨率较低。

  • 转录因子结合和组蛋白修饰: 用于确定DNA结合蛋白,如转录因子,以及组蛋白蛋白质的化学修饰的测定方法利用抗体。 ChIP-seq是最常用的方法,但已开发出具有更好分辨率的新方法。这些包括ChIP-exo、Chipmentation、CUT&RUN和CUT&Tag。

  • 染色质可接近性: 映射开放染色质区域的黄金标准测定方法是ATAC-seq。ATAC-seq已经取代了先前的方法,例如DNase-seq和FAIRE-seq。

  • 染色质构象: 染色质三维构象的重要性最近得到了特别的认识。染色质构象测定用于研究基因与其远端调节元素之间的物理相互作用,以及导致染色质环绕的蛋白质。Hi-C是前者的典型测定方法,而ChIA-PET可以应用于后者。

研究表观基因组对基因表达的直接影响时,通常需要在同一实验中进行RNA测序实验来补充表观基因组测量。

单细胞实验,特别是单细胞ATAC测序,越来越多地与单细胞RNA测序一起进行联合分析。这可以从同一单个细胞中获得基因表达和染色质可及性的谱。

epigenomic_assays.821x0-is (1)

峰值calling和注释

对于大多数基于测序的表观基因组数据(特别是ChIP-seq,ATAC-seq和相关实验),分析工作流程涉及识别、注释和分析峰值,或者具有感兴趣信号的基因组区域。

首先对原始测序读数进行质量控制和参考基因组的比对,之后使用可能的对照库(在ChIP-seq的情况下,预IP输入和IP与非特异性抗体)来归一化读数覆盖信号。

使用峰值caller工具识别信号中的峰值。此阶段可能需要仔细调整参数以优化用于分析的协议。

为了进行进一步的分析,使用相关信息(如读数统计和接近或重叠的特征,如基因、调控元件和结合基序)对峰值进行注释。

使用基因注释峰值可进行基因集富集分析,以进一步解释下游效应。

peak_calling_and_annotation.648x0-is

探索性分析

使用PCA(对于单细胞数据,使用UMAP或t-SNE算法)和热图可视化样本集中的注释峰值。这些可视化有助于优化峰值调用过程,并回答以下问题:

  • 生物重复体在表观基因组分析方面是否相似?
  • 不同的样本组(例如不同的组织、处理或时间点)是否形成单独的聚类?
  • 是否存在离群样本?
epigenomics_exploratory_analysis

差异峰分析

为了比较不同条件,可以对已识别的峰进行统计比较,或者更常见的是直接从各自的读数覆盖信号中调用差异峰。

类似于差异基因表达分析,差异峰分析可产生效应大小和统计显着性的估计值。这些统计数据可以可视化为火山图。

由于全基因组表观基因组测量在整个基因组中产生连续的信号,因此这些分析也可以集中于特定的感兴趣区域,例如启动子或感兴趣蛋白质的已知结合位点。密度热图用于在不同条件下可视化感兴趣位点的信号。

此外,在峰值处重叠的结合基序可以在条件之间进行统计比较,并以火山图的形式进行可视化。

differential_peak_analysis.983x0-is

转录因子结合位点分析

ChIP-seq和相关协议可用于在整个基因组中识别转录因子(TF)结合位点。这些检测依赖于针对感兴趣蛋白质的特异性抗体,因此这种方法可以仅识别一个TF的结合位点。另一方面,ATAC-seq数据可以通过称为TF足迹分析的方法并行识别所有DNA结合蛋白的结合位点。

在TF足迹分析中,染色质可及性信号中的窄降落被解释为蛋白质结合位点。可以间接推断TF的身份。结合RNA-seq数据,TF足迹分析可以用于以非常高通量的方式研究TF对基因表达的综合影响。

tf_footprinting

DNA甲基化数据分析

DNA甲基化数据的分析始于测序读数的质量控制和比对(或数组数据的QC和标准化),然后进行甲基化位点的调用。

检测到的甲基化位点用于识别样本之间的更大的DNA甲基化区域或差异甲基化区域(DMR)。这些区域可以类似于其他表观基因组数据中的峰值进行注释。

DNA甲基化数据的可能下游分析包括:

  • 与基因表达数据的整合: 当来自同一环境的RNA-seq或其他基因表达数据可用时,可以研究启动子甲基化和基因表达之间的关联。
  • 表观遗传标记物的发现: 来自患者样本的DNA甲基化数据可以发现临床相关的表观遗传标记物。
  • 生物年龄分析: 针对DNA甲基化数据开发了生物年龄的表观模型。这些模型可用于估计个体或特定组织的生物年龄,而非年龄。
methylation_analysis

RNA-seq和表观基因组数据的整合

在同一样本上进行RNA-seq和表观基因组测序(如ChIP或ATAC-seq)可以进行综合分析,以研究基因调控程序的全基因组。

可以识别增强子和其靶基因之间的调节连接,以及转录因子和它们的靶基因,借助来自基因表达和调节元素表观基因组状态的证据建立。

了解更多

screen_shot_2022-11-04_at_4_31_31_pm (1)

单细胞RNA测序数据分析

scrna_seq_banner
scrna_seq_data_analysis

单细胞RNA测序使得细胞鉴定和研究在规模和分辨率上达到了高于批量测序的水平。

单细胞RNA测序(scRNA-seq)是分子生物学中发展和多样化最快的技术之一。研究基因表达在单个细胞水平上的能力就像之前批量RNA测序的出现一样具有变革性。

除了单细胞RNA测序,还有许多其他基于下一代测序(NGS)的检测方法已被适应于单细胞协议。这些包括基因组学、蛋白质组学和表观遗传学检测,特别是单细胞ATAC测序,通常与scRNA-seq一起进行。

平台和scRNA-seq协议在其吞吐量(细胞数)和转录本覆盖率(3’/5’标签基础 vs 全转录本)方面有所不同。我们团队在多种技术方面具有经验,如10X Genomics、Drop-Seq、BD Rhapsody系统以及CEL-Seq和Smart-Seq系列的协议。

这里我们介绍典型的单细胞分析,重点是scRNA-seq,但也涵盖了其与其他常见的单细胞检测的整合。

质量控制和预处理

与任何NGS数据一样,对单细胞测序数据的分析始于质量控制和预处理。

原始测序读数经过质量测试,并生成诸如细胞质量、准确性和多样性等指标。然后将读数与适当的参考基因组或转录组进行比对,并绘制和检查附加的指标,例如细胞数、每个细胞的读数、每个细胞的基因数、测序饱和度以及线粒体转录本的比例。

这些质控指标告诉我们关于文库的总体质量和样品的可用性,并使我们能够确定和去除低质量的细胞。

通常还进行进一步的预处理,以从某些下游分析中去除不需要的信号或噪声,这包括:

  • 估计替代值以估计由于技术而非生物学原因而导致的漏读或零转录本的基因;
  • 规范化以消除例如细胞大小差异等因素引起的偏差;以及
  • 将数据降至代表性变量,如高变量基因或主成分。
scrna_seq_qc
scrna_seq_imputation

探索性分析

预处理的单细胞RNA测序数据被聚类以识别相似的细胞群,并使用非线性降维算法(如tSNE和UMAP)和相关性热图进行可视化,以揭示细胞异质性的一般模式。

这些可视化帮助我们回答技术问题,例如:

  • 生物学重复是否相似?
  • 是否有离群样本或细胞?
  • 细胞群是否不同?

……以及生物学问题,例如:

  • 基础细胞类型/状态有多么异质?
  • 不同样本(例如不同组织、治疗或时间点)是否形成单独的群集?
scrna_seq_exploratory_analysis

细胞类型鉴定

识别和表征细胞类型(以及更精细的细胞状态)是大多数单细胞项目最核心的部分。

这一切始于识别特定于每个细胞群的特征(例如基因、蛋白质、可访问区域)。这些标记由差异表达(DE)比较每个细胞群和其余细胞群而定义,产生如折叠变化和统计显着性等DE统计量。

可以使用散点图、小提琴图和热图可视化细胞群标记。

标记进一步注释为生物学意义的术语,例如生物过程、信号通路或特定疾病。这些分析可能依赖于超表达分析或基因集富集分析,两者都会产生一系列富集的基因集与相关统计信息和注释。

单细胞数据集通常也与公共可用数据集集成,以利用已注释数据集或细胞图谱中的细胞类型信息。这使得将细胞标签转移至分析的数据集成为可能。

转移的细胞标签和鉴定的标记及其注释与关于细胞类型/状态标记的先前信息一起用于鉴定捕获的细胞类型。

scrna_seq_marker_detection
scrna_seq_marker_visualization

轨迹分析

除了表征不同的细胞身份外,单细胞数据还适用于识别细胞状态渐变的连续体或轨迹。揭示这种连续体也被称为假时间分析,尽管所有细胞在同一时间点被采样,但个体细胞可能代表分化等时间过程中不同的阶段。

利用分化分支和细胞成熟轨迹的全新重建,可以探索细胞动态,勾勒细胞发育谱系,并表征沿着潜在假时间维度的细胞状态转换。

轨迹推断算法的集合可用于鲁棒地识别根和终端细胞状态、分支点和谱系。单细胞沿着确定性或概率谱系进行排序,它们的排序指示了它们在感兴趣的动态过程中的进展情况。

这种类型的分析还可以利用加工和未加工转录本的比率推断基因表达在给定细胞中是增加还是减少。将来自给定状态下所有定量基因的这些信息相结合,可以推断状态的变化方向和速度。这称为RNA速度分析。

scrna_seq_trajectory_analysis

综合单细胞分析

综合单细胞分析将不同的数据集,包括不同的数据类型和物种集成在一起,这使得对所研究系统中基因调控的机制有更准确和详细的细胞标记和洞察。这种分析依赖于数据集之间的共同属性或“锚点”,如匹配的特征(例如基因或同源物)或匹配的细胞。

整合多个单细胞RNA测序数据集

最常见的单细胞数据集整合是来自不同来源或技术平台的scRNA-seq数据集之间的整合。使用基因作为锚点,成功的整合可以去除数据集的技术偏差同时保留生物变异。

当有关于相应组织或生物体的公共表达图谱时,整合不同的scRNA-seq数据集特别有帮助。

整合单细胞RNA测序和表观遗传学

将单细胞RNA测序数据与单细胞ATAC-seq或单细胞甲基化数据结合起来通常依赖于匹配的细胞作为锚点(当测量来源于与10X Genomics Multiome技术中相同的细胞时)。

将表达数据与染色质可及性或甲基化数据相结合,可以更可靠地识别细胞类型,并允许量化染色质状态对各个细胞类型的表达的影响。

阅读有关整合表观遗传学和转录组学的更多信息

整合单细胞RNA测序和蛋白质组学

由于蛋白质而不是转录本是细胞功能的关键驱动因素,单细胞蛋白质组学通过更准确地估计细胞的功能状态来补充scRNA-seq实验。

单细胞蛋白质组学分析(CITE-seq,流式细胞术,质谱和质谱分析)具有不同的吞吐量(量化的蛋白质数量)并可以专门针对表面蛋白进行定向,如CITE-seq,它涉及从具有匹配scRNA-seq读数的细胞中量化表面蛋白。

表面蛋白在细胞类型鉴定中特别有用,而包含胞质蛋白则可以更好地表征通路和基因调控活动。

跨物种整合分析

跨物种综合分析可确定定义不同生物之间进化和发育机制关系的细胞类型谱系。在跨物种整合中,使用共享的同源物作为锚点。

当疾病/器官在动物模型中的单细胞分辨率上得到更好的表征时,这特别有助于人类疾病/器官的研究。

scrna_seq_integrative_analysis

膜受体配体分析

膜受体配体(LR)分析揭示了协调体内稳态、发育和其他系统级功能的细胞间相互作用。此类相互作用的变化和功能失调在仅限于个体细胞或细胞类型内部状态分析中可能不被注意到。

膜受体配体分析根据已知受体和其配体的表达量识别和量化细胞间相互作用。这些相互作用可能在组织内或组织间发生,其强度将在感兴趣的生物条件(如患者组、疾病状态和治疗)之间进行比较。

scrna_seq_ligand_receptor_analysis

空间转录组分析

空间解析单细胞转录组学分析将表达数据与细胞在组织或器官中的位置上下文联系起来。这在研究肿瘤及其微环境等复杂实体组织中特别有用。

空间转录组分析包括空间中的细胞/点聚类、空间变量基因的识别和空间中的细胞类型解析。

保留序列化细胞的位置信息有助于准确识别细胞类型和膜受体配体相互作用。它还能够实现基因表达或染色质可及性(在scATAC-seq情况下)的空间可视化,并将基于成像的数据整合到分析中。

即使在像10X Visium这样的低分辨率分析中,多模式空间分析也有助于纠正基因表达值和补充数据缺失事件。

scrna_seq_spatial_analysis

RNA测序数据分析

rna_seq_banner6
rna_seq_data_analysis

RNA测序数据分析揭示了基因调控的复杂机制。

基因表达的转录组广泛应用于研究从 单细胞 到组织和复杂的微生物群落中的生物系统中的基因调控的研究。 RNA测序数据允许进行各种分析,以解决生物学和生物医学领域中无数的研究问题。

下面我们介绍了我们在RNA-seq数据上执行的一些最常见的分析。探索性、差异表达和通路分析大多也适用于其他高通量表达数据,如表达型芯片或蛋白质组学数据。

我们希望下面的示例能启发您欣赏RNA-测序的丰富多彩世界。

探索性基因表达分析

每个RNA-seq表达研究都包括探索性分析。在经过原始测序reads质量控制和基因计数之后,使用主成分分析(PCA)和表达热图来可视化数据集,以揭示其一般模式。这些可视化帮助我们回答以下问题:

  • 生物学重复是否与其表达剖面相似?
  • 不同样本组(例如不同组织、处理或时间点)是否形成单独的聚类?
  • 是否存在异常样本?
rna_seq_exploratory_analysis

差异表达分析

差异表达分析是对两个样本组进行统计比较的过程。它会得到每个检测到的转录本的差异表达统计数据,例如折叠差异和统计显著性。这些统计数据通常使用火山图进行可视化。被发现上调或下调的基因可以进一步通过热图或箱线图进行可视化。

作为一种统计分析方法,表达研究中的这个阶段受益于生物复制品带来的统计功率。每个条件至少需要三个生物重复样本,但这仅适用于可靠检测具有相对较大表达差异的基因。通过谨慎的实验设计和足够的样本量,可以检测到更微妙的差异,并控制混杂因素。

rna_seq_differential_expression_analysis

通路分析

通路分析将差异表达分析中的基因放在更广泛的生物学背景中。简单的通路分析会将上调和下调基因与预定的基因列表进行统计学比较。这些列表被注释为生物学意义的术语,例如生物过程、信号通路或特定疾病。

这样的分析可能依靠过表达分析或基因集富集分析,两者都会得出具有相关统计学和注释的富集基因集列表。

更多机制通路分析依赖于基因之间实验验证的相互作用。它们不仅能够确定哪些通路由差异表达的基因表示,还能揭示通路是否被激活或抑制,以及由哪些基因激活或抑制。

更高级的通路分析我们使用Ingenuity Pathway Analysis (IPA, QIAGEN)。IPA能够进行深入分析已知和新颖的基因调控网络。

rna_seq_pathway_analysis.996x0-is

转录组组装

对于非模式生物以及具有非常动态的基因组,例如微生物,我们通常通过组装新的转录组来开始RNA测序数据分析,并使用相关物种的同源基因和计算基因预测来注释它。

一个新的参考转录组对您的进一步研究和整个研究社区的研究都是非常宝贵的资源。一旦建立了高质量的参考转录组,就可以打开大多数下游分析的大门,这些下游分析通常用于模型生物。

rna_seq_transcriptome_assembly

单细胞表达分析

单细胞RNA测序(scRNA-seq)实验可以以比批量RNA测序更高的规模和分辨率对细胞类型进行编目和揭示分化轨迹。

特别是用于研究复杂组织的组成和发展,scRNA-seq数据集通常包含数千个单个细胞。大多数用于分析批量RNA-seq数据的方法也可以为单细胞RNA-seq数据量身定制。

了解更多

scrna_seq_analysis

MicroRNA数据分析

小RNA测序可用于研究各种短RNA物种,尤其是microRNAs。MicroRNA-seq分析与mRNAs的分析主要类似,但路径和调节分析利用预测和/或先前验证过的microRNA靶基因。

从匹配样品中同时测序mRNA和小RNA可估计microRNAs与其靶标之间的调节关系。为了确定在给定条件下受microRNA调节的基因,可以使用argo naute CLIP-测序(和相关协议)。

mirna_seq_analysis

可变剪接 分析

除了在基因水平上研究表达外,RNA测序还允许进行更详细的视图:剪接变异水平的表达。可靠地鉴定可变剪接事件需要比典型的基因水平表达分析更深的测序。

根据数据的数量和质量,可变剪接分析可以集中于量化已知的、先前注释的剪接亚型的表达水平,或检测新的剪接事件。

rna_seq_alternative_splicing_analysis

融合基因检测

在癌症中,某些结构变异已知会导致融合基因。DNA中两个分开的基因融合在一起可能导致融合转录本。反过来,融合转录本可能导致融合蛋白质具有新的、潜在的癌症驱动调控和功能组合。

可以使用识别和分析discordantly mapping RNA-seq读数或读取对的工具从RNA-seq数据中检测融合基因。

rna_seq_fusion_detection

整合RNA-seq和表观基因组数据

在同一样本上进行RNA-seq和表观基因组测序(例如ChIP或ATAC-seq)可以进行整合分析,研究基因调控程序的全基因组范围。

可以在基因表达和调控元素的表观基因组状态的证据基础上,确定增强子与其靶基因以及转录因子与其靶基因之间的调控联系。

了解更多

screen_shot_2022-11-04_at_4_31_31_pm

微生物与病毒生物信息学 vs. 细菌与病毒生物信息学

核心区别

  • Microbial & Viral Bioinformatics(微生物与病毒生物信息学)
    研究对象更广,涵盖所有类型的微生物(细菌、古菌、真菌、原生生物等)以及病毒。
  • Bacterial and Viral Bioinformatics(细菌与病毒生物信息学)
    研究对象较窄,专注于细菌和病毒,不包括其他非细菌类微生物。
Bacterial_and_Viral_Bioinformatics

对比表

维度 微生物与病毒生物信息学 细菌与病毒生物信息学
研究对象范围 微生物(细菌、古菌、真菌、原生生物等)+ 病毒 仅限细菌 + 病毒
广度 广,涵盖多类生物 窄,专注于细菌相关
典型研究方向 宏基因组学、群落生态学、宿主-微生物互作、病毒-微生物关系 细菌基因组学、耐药基因预测、病原体分析、噬菌体研究
应用场景 微生物群落研究、环境样本分析、人体微生物组研究 医学细菌学、传染病、抗生素耐药机制
学科定位 偏向综合性、生态学与系统层面 偏向临床、病原学与应用层面

应用实例对比

  • 微生物与病毒生物信息学

    • 实例:分析人类肠道微生物组(细菌、真菌、古菌等)与病毒群落的互作,探索其与肥胖、糖尿病或免疫系统疾病的关系。
    • 特点:关注整体微生物生态系统,强调多类生物之间的协同与平衡。
  • 细菌与病毒生物信息学

    • 实例:研究医院获得性耐药细菌(如耐甲氧西林金黄色葡萄球菌,MRSA)及其与噬菌体的互作,寻找新的治疗策略。
    • 特点:聚焦病原体与临床应用,强调对疾病防控和治疗的直接价值。

总结

  • Microbial & Viral Bioinformatics:范围大,适合研究多样微生物群落及其与病毒的关系。
  • Bacterial and Viral Bioinformatics:范围小,专注于细菌和病毒,更聚焦临床和病原学研究。

import matplotlib.pyplot as plt
from matplotlib_venn import venn2

# Create side-by-side comparison
fig, axes = plt.subplots(1, 2, figsize=(12,6))

# --- Left: Microbial & Viral ---
venn_left = venn2(
    subsets=(1, 1, 1),
    set_labels=("Microbes", "Viruses"),
    ax=axes[0],
    set_colors=("skyblue", "lightcoral"),  # 微生物用蓝色,病毒用红色
    alpha=0.6
)
venn_left.get_label_by_id('10').set_text('Bacteria, Archaea,\nFungi, Protists')
venn_left.get_label_by_id('01').set_text('Viruses')
venn_left.get_label_by_id('11').set_text('Microbe-Virus\ninteractions')
axes[0].set_title("Microbial & Viral Bioinformatics")

# --- Right: Bacterial & Viral ---
venn_right = venn2(
    subsets=(1, 1, 1),
    set_labels=("Bacteria", "Viruses"),
    ax=axes[1],
    set_colors=("lightgreen", "lightcoral"),  # 细菌用绿色,病毒用红色
    alpha=0.6
)
venn_right.get_label_by_id('10').set_text('Bacteria\n(pathogens, commensals)')
venn_right.get_label_by_id('01').set_text('Viruses\n(phages, human viruses)')
venn_right.get_label_by_id('11').set_text('Bacteria-Virus\ninteractions')
axes[1].set_title("Bacterial & Viral Bioinformatics")

# Add a caption below the plots
fig.text(
    0.5, -0.05,
    "Comparison: Microbial & Viral Bioinformatics covers all microbes (bacteria, archaea, fungi, protists) plus viruses,\n"
    "while Bacterial & Viral Bioinformatics is narrower, focusing only on bacteria and viruses.",
    ha='center', fontsize=10
)

plt.tight_layout()
plt.show()
import matplotlib.pyplot as plt

fig, ax = plt.subplots(figsize=(6,6))

# 大圆 - Microbial
microbe_circle = plt.Circle((0,0), 1.0, color="skyblue", alpha=0.4, label="Microbes")
ax.add_artist(microbe_circle)

# 小圆 - Bacteria (在Microbial里)
bacteria_circle = plt.Circle((0.3,0.3), 0.4, color="lightgreen", alpha=0.6, label="Bacteria")
ax.add_artist(bacteria_circle)

# 另一个圆 - Viruses
virus_circle = plt.Circle((-0.2,-0.2), 0.6, color="lightcoral", alpha=0.6, label="Viruses")
ax.add_artist(virus_circle)

# 设置比例 & 美化
ax.set_xlim(-1.5, 1.5)
ax.set_ylim(-1.5, 1.5)
ax.set_aspect("equal")
ax.axis("off")

# 添加标签
ax.text(-0.9, 1.0, "Microbes\n(bacteria, archaea, fungi, protists)", fontsize=10, color="blue")
ax.text(0.4, 0.6, "Bacteria", fontsize=10, color="green")
ax.text(-0.9, -0.8, "Viruses", fontsize=10, color="red")

plt.title("Nested Scope: Microbes vs Bacteria with Viruses", fontsize=12)
plt.show()

Analyse spatial transcriptomic data

Click here (http://xgenes.com/course/spatialtx/) to get started.

Analyzing spatial transcriptomic data involves several steps, including quality control, data pre-processing, spatial mapping, cell-type identification, differential expression analysis, and functional analysis. Here are the main steps involved in spatial transcriptomic data analysis:

Quality control: This step involves checking the quality of the sequencing reads using tools such as FastQC. If the quality is low, the data may need to be re-sequenced or filtered to remove low-quality reads or adapter sequences. Data pre-processing: This step involves filtering out low-quality cells, normalizing the data, and identifying highly variable genes using tools such as ST Pipeline or STARmap. Spatial mapping: This step involves mapping the transcriptomic data to the spatial coordinates of the tissue sections using tools such as ST Pipeline or STARmap. This produces a spatial expression matrix that contains the expression levels of each gene in each spatial location. Cell-type identification: This step involves identifying the cell types that are present in each spatial location using tools such as CellFinder or SpatialDE. Differential expression analysis: This step involves identifying genes that are differentially expressed between different spatial locations or cell types. This can be done using tools such as ST Pipeline or SpatialDE. Functional analysis: This step involves interpreting the differentially expressed genes by performing pathway or gene ontology analysis. This can be done using tools such as GSEA or Enrichr. Data visualization: This step involves visualizing the results of the analysis using tools such as heatmaps, spatial plots, or 3D visualizations. Overall, analyzing spatial transcriptomic data is a complex process that involves several steps and tools. It is important to carefully QC the data, choose appropriate normalization and statistical methods, and interpret the results in the context of the biological question being studied. Additionally, there are specialized tools and methods available for different types of spatial transcriptomic data, such as MERFISH or CODEX, which may require different analysis pipelines.