面向病理的多重成像实现整合疾病映射

DOI: https://doi.org/10.1038/s41586-025-09225-2

组织中蛋白质的表达和位置代表了健康和疾病的关键决定因素。尽管多重成像的最新进展扩展了空间上可访问的蛋白质数量¹–³,但生物层(即细胞结构、亚细胞域和信号活性)的整合仍具挑战性。这是由于抗体面板组成和图像分辨率的限制,它们共同限制了图像分析的范围。在这里,我们提出面向病理的多重化(PathoPlex),一个可扩展、质量控制且可解释的框架。它将亚细胞分辨率的高多重成像与软件包结合,用于提取和解释跨生物层的蛋白质共表达模式(簇)。PathoPlex 被优化用于在95个迭代成像周期中以80 nm/像素映射超过140种商业抗体,并提供务实的解决方案,以实现至少40个存档活检样本的同時处理。在概念验证实验中,我们识别上皮JUN活性作为免疫介导肾病的关键开关,从而证明簇可以捕获相关的病理特征。然后,PathoPlex 用于分析人类糖尿病肾病。该框架将患者水平的簇与器官功能障碍联系起来,并识别具有治疗潜力的疾病特征(即钙介导的管状应激)。最后,PathoPlex 用于揭示没有组织学肾病的2型糖尿病个体中的肾应激相关簇。此外,生成基于组织的读出以评估对葡萄糖共转运体SGLT2抑制剂的响应。总之,PathoPlex 为民主化多重成像和在复杂组织中建立整合图像分析工具铺平了道路,以支持下一代病理图谱的发展。

空间生物学技术

空间生物学技术最近获得了更多关注,因为它们在保留组织学背景的同时提供了转录组和蛋白质组表达的分子洞见¹。术语“多重成像”指的是将基于抗体的标记扩展超出传统限制(即每切片3–4个抗体)²,³。有多种商业系统可用,性能和成本各异。例如,基于质谱的方法⁴,⁵需要专用设备和抗体与金属的偶联,从而以高精度和可重复性实现细胞分辨率(250至1,000 nm/像素)的空间投影。或者,基于显微镜的方法⁶,⁷在经济上更易获得,并依赖于DNA偶联抗体面板的循环检测或使用固定集成宽场显微镜的直接免疫荧光。虽然此类方法实现了200–300 nm/像素的图像分辨率,但检测速度和信号放大之间存在权衡。使用质谱和显微镜方法的研究结果⁸,⁹与文献的全面综述¹⁰一致,报告的面板范围在30至60个抗体之间。这项工作为开发图像分析策略奠定了基础,这些策略通过细胞分割¹¹–¹⁴专注于细胞身份和状态的识别。

2018年,迭代间接免疫荧光成像(4i)¹⁵被引入作为多重成像和高级图像分析的开源工具。这些技术基于使用未修饰的商业抗体,通过化学洗脱和灵活光显微镜的简单步骤进行免疫荧光成像的循环轮次。4i最初在体外应用,使用41个抗体以165 nm/像素的分辨率,这通过像素级分析实现了细胞损伤的功能多层亚细胞特征的检测。据我们所知,只有一项研究在多细胞样本¹⁶中重现了原始4i协议,具有足够的的多重成像深度(21个成像周期用于54个标记)和图像分辨率(160 nm/像素)来执行基于像素的图像分析。然而,尽管这是可用最大和最复杂的数据集之一,从多重成像派生的输出主要用于重述器官发育期间已知的细胞事件。在这种背景下,我们假设多重成像方法定义与健康和疾病相关的基于组织的整合特征的潜力仍未被充分探索。

当前技术水平

一项讨论基于抗体的多重成像当前格局的研究¹⁰显示,方法之间的性能存在多样性。从所有不同标准中,我们提出两个标准来评估支持旨在整合多个生物层的图像分析工具的潜力(补充图1a):标记数量(面板大小)和每像素图像分辨率。虽然面板大小直接影响可分析过程的范围,但图像分辨率及其带来的生物学洞见更难理解。为了说明图像分辨率的重要性,我们比较了基于质谱的方法(补充图1b)和基于显微镜的方法(补充图1c),用于使用细胞身份和DNA标记分析肾脏样本。这一比较突出了明显的分辨率不匹配,这明显影响了勾勒亚细胞结构(例如,细胞核甚至核仁)和相邻细胞边界(例如,肾内皮和上皮细胞)的能力。

在报告的多重方法¹⁰中,平均面板大小约为37个标记,平均分辨率为267 nm/像素。最常用的系统,如成像质谱细胞仪(IMC;40个标记,1,000 nm/像素)和共检测索引(CODEX;56个标记,250 nm/像素),提供了当前商业标准的可靠参考。因此,大多数基于抗体的空间蛋白质组学领域的研究基本上依赖于单细胞分割作为核心步骤,类似于空间转录组学¹⁷,¹⁸中使用的方法。即,分辨率和面板大小都没有为更整合的图像分析提供基础。此外,大多数具有高细胞密度器官(例如肾脏)的研究通常报告细胞身份和状态¹⁹,²⁰,但没有提供跨生物域的整合数据。

这些限制代表了下一代多重成像方法扩展面板大小超出当前限制的机会。而且,可以构建计算工具,通过加权和连接每个生物层的贡献来提取健康和疾病的标志(补充图2)。

迈向下一代多重成像

在这里,我们介绍PathoPlex,一个可扩展、质量控制和可解释的框架。它将亚细胞分辨率的高多重成像与开源软件包结合,以促进甲醛固定石蜡包埋(FFPE)样本的整合分析(图1a)。

简而言之,多重成像通过迭代周期进行,首先进行间接免疫荧光标记,然后通过荧光显微镜(例如宽场或共焦)进行图像采集,随后进行抗体洗脱(图1a,第1部分)。为了防止组织抬起,我们推荐使用聚-D-赖氨酸涂层玻璃表面用于小规模实验,或使用(3-氨丙基)三乙氧基硅烷(APTES)用于大规模实验,因为APTES比聚-D-赖氨酸更有效地防止组织脱离(方法)。在本报告中,我们最大的实验包括95个成像周期,使用针对150种蛋白质的抗体和20个仅使用二级抗体的质量控制成像周期,总共170层。经过详细检查,我们包括142层(122种蛋白质和20种质量控制)用于分析,生成>6000亿可用像素。值得注意的是,组织在95个成像周期内保持稳定,没有损坏迹象,这表明这不是技术的极限。

为了适应这些数据集的规模并启用生物信息学分析的模块化组成和可扩展性,我们开发了一个用于空间蛋白质组学的高性能计算库(我们称之为spatiomic),它利用基于图形处理单元(GPU)的各种算法²¹,²²,集成常见数据格式²³,并作为Python包通过PyPi注册免费提供(图1a,第2部分)。spatiomic包包括多个注册算法,以对齐单个标记的图像用于联合分析。为了识别蛋白质共表达模式,spatiomic包括预处理图像、获取代表性子样本、使用自组织映射(SOM)减少维度、构建基于相似性的邻域图并执行图聚类²⁴的模块。可以在实验数据集的所有图像中一致地识别共表达模式并进行空间投影。由于这些共表达模式基于像素级聚类生成,从现在起,我们将其称为“簇”。

每个簇都有潜力代表一个生物过程,并需要进一步解释(图1b)。作为第一步,分析每个标记对簇的个别贡献,以定义每个簇代表的特定共表达模式。为此,系统评估了平均标准化强度(每个标记的贡献水平)和相对于其他簇平均值的log2转换折叠变化(每个标记的特定贡献)。由于每个标记代表具有已知或预测位置、分布和表达模式的蛋白质,它可以投影回空间进行视觉验证。簇丰度用作可量化指标,以统计比较条件并隔离差异表达的簇。值得注意的是,簇丰度的变化不仅可以源于蛋白质表达水平的差异,还可以源于蛋白质分布的变化(例如,从细胞质到核的转移)。

作为概述,我们首先在三个不同器官中提供了概念证明和质量控制数据集(<30个标记,160 nm/像素分辨率)。PathoPlex 然后使用肾脏作为高细胞密度和结构复杂性的模型器官,通过深入分析三个额外数据集进行验证(图1c)。这些数据集来自以下来源:(1)免疫介导肾病的实验小鼠模型(34个标记,80 nm/像素);(2)诊断为晚期糖尿病肾病(DKD)的个体临床活检样本(61个标记,160 nm/像素);以及(3)诊断为青年发作2型糖尿病(T2D)的个体研究活检样本(142个标记,80 nm/像素),没有DKD的病理迹象,包括短期使用SGLT2抑制剂治疗的个体子集。

概念证明和质量控制

概念证明实验基于自身免疫性肝炎、脑膜瘤和局灶节段性肾小球硬化(补充图3)的代表性样本,并在人类肝脏、脑和肾脏的对照中(补充图4),显示了在病理中的广泛适用性和标记选择的广泛潜力,包括转录因子、酶、结构蛋白质、亚细胞域、细胞表面受体和磷酸化靶点。

PathoPlex的质量控制标准首先在小鼠组织中建立,然后扩展到人类样本。简而言之,连续的抗体面板成像周期构成了第一级控制。这一步很重要,因为不完全洗脱可能导致与后续周期的交叉反应或前一周期的残余信号。第二级控制涉及洗脱后的直接成像,以确认缺乏荧光信号(扩展数据图1a)。第三级控制包括使用二级抗体而不事先孵育一级抗体的成像周期(仅二级周期)。这一步确保了残余可存活一级抗体的缺失,并生成可以包括在图像分析中的额外层(扩展数据图1b)。第四级控制涉及多个成像周期后的成功再染色(扩展数据图1c)。这一阶段用于确认表位被保存和抗体洗脱的有效性。此外,我们通过95个成像周期对人类组织样本应用实际质量控制步骤。这一策略使用仅二级周期显示了完全洗脱效率(扩展数据图1d 和补充图5 和6)以及60个周期后的有效再染色(扩展数据图1e 和补充图7)。

一旦所有成像周期完成,进行图像对齐以考虑各种周期中的潜在移位。众所周知,细胞核可以轻松染色,但常用标签要么不稳定(例如,4′,6-二脒基-2-苯基吲哚 (DAPI))要么昂贵(例如,DRAQ5)。为此,我们引入N-羟基琥珀酰亚胺酯 (NHS-E),一种常用于超分辨率显微镜²⁵的泛蛋白标签。NHS-E 一致生成用于对齐的参考图像,并显示与核参考相当的高性能(补充图8)。此外,NHS-E 可用于分割包含组织的区域,以限制潜在非特异性结合区域的分析。与DAPI 或 DRAQ5 不同,后者需要每个成像周期不断再染色,NHS-E 只需在协议开始时应用一次,并保持稳定达95个周期。

实际考虑

PathoPlex 结合不同策略来优化性能并最小化潜在批次效应的引入,包括适应性显微镜、可访问和可定制的成像设置以及液体处理的低成本自动化(扩展数据图2a)。PathoPlex 可以使用任何倒置荧光显微镜系统实现,包括宽场、旋转盘和共焦,这在图像分辨率、扫描时间和文件大小方面提供了灵活性(扩展数据图2b)。

值得一提的是,经典病理协议和一些多重技术可能无意中引入批次效应,因为样本作为单个幻灯片处理。相比之下,PathoPlex 使用成像室,可以在单次运行中并行处理多个组织。每个成像室被组织为独立且自包含的实验,包括对照和实验样本(扩展数据图2c)。考虑到平均未修饰组织病理样本的大小,商业解决方案可用于同时处理2至24个完整样本(扩展数据图2d)。然而,随着孔数的增加,手动移液增加用户错误的可能性。虽然可以通过自动化缓解这一错误来源,但商业可用的液体处理系统通常昂贵且无法为更广泛的科学社区所访问。为此,PathoPlex 引入两种基于3D打印的实际策略来简化液体处理。第一种方法涉及使用3D打印框架创建大型统一单孔成像室(11 × 7.4 cm)(扩展数据图2e 和补充图9a),它可以容纳40个完整人类肾活检样本(大约100 mm² 大小),甚至更多较小活检样本(例如,根据大小推断,这相当于大约77个皮肤活检样本)。第二种策略涉及染色和洗脱周期的自动化。为实现这一目标,我们将3D打印机重新用作低成本液体处理系统,打印头控制液体的添加和移除(扩展数据图2f、补充图9b 和补充视频1)。这种方法产生了成功的染色和洗脱周期(扩展数据图2g),节省大约70%的动手时间,并最小化用户输入(补充图9c)。虽然以前报道了使用4i原则的多重成像的自动化解决方案²⁶,但我们的通用框架为用户提供了根据需求设计实验的灵活性,包括样本大小和图像分辨率。

实验疾病的概念证明

接下来,我们进行了概念证明实验,其中PathoPlex 用于分析一个特征明确的免疫介导肾病小鼠模型²⁷的病理生理。这些小鼠表现出从急性损伤到新月形肾小球肾炎 (CGN) 的清晰疾病进程。即,尿中蛋白丢失(蛋白尿)、随后在肾过滤单位(肾小球)中发展病理损伤(新月形)和肾功能逐渐丧失。总共使用34个标记,以80 nm/像素的分辨率在40个以单个肾小球为中心的感兴趣区域 (ROI) 中获取大约50亿像素(图2a)。抗体面板设计用于检测细胞身份、亚细胞隔室和信号通路活性(补充表1)。从总共33个生成的簇中,27个簇被生物学定义。

图2

图2 | 识别上皮JUN活性作为免疫介导肾病的关键开关。 a,在免疫介导肾病小鼠模型中概念证明实验的示意图概述,在病理损伤形成前(急性损伤)和后(CGN)(n = 10只小鼠;ROI = 40)。NTS,肾毒血清;抗体面板细节见补充表1。b,颜色编码簇的时空分布。c,具有生物学意义的解释簇示例(C28、C21、C4 和 C7)。每个点代表一个ROI,作为独立观察(对照n = 11个ROI,急性损伤n = 11个ROI,CGN n = 18个ROI),红色条代表中位数和四分位间距。Mes,间质。d,识别C21(pJUN作为顶级贡献者)作为损伤形成前后关键调控病机制。e,C21时空分布图像(左)和管状上皮细胞和PECs中的细胞特异频率(右)。f,使用JNK抑制剂 (JNKi) 处理减少PDGF介导的小鼠PECs体外集体迁移。在“集体迁移”中,误差条代表上下限。数据来自四个生物重复。Veh,载体。g,在人类肾活检样本中确认不同损伤阶段PECs中的pJUN表达(n = 12名患者和n = 3名健康个体),这也与CD44共表达相关。h,在CGN大鼠模型中免疫介导肾病进展期间使用JNKi作为预防策略(NTS前)和治疗策略(NTS后7天)的示意图概述。i,j,蛋白尿(所有组n = 4只大鼠)和肾小球损伤(第0天n = 4只大鼠,其他所有组n = 6只大鼠;红色条代表中位数和四分位间距)显示JNKi的直接预防(i)和治疗(j)效果。k,使用CD44表达作为PECs激活的读出,我们确认了JNKi对PECs激活的效果(使用i和j中所有可用大鼠)。差异簇丰度分析使用双侧t检验。簇组成分析依赖于带有Holm–Šidák校正的双侧t检验。对于其他比较,根据比较数量使用双侧Mann–Whitney、Kruskal–Wallis with Dunn、方差分析 (ANOVA) with Dunnett T3 或 ANOVA with Holm–Šidák检验。*P < 0.0001, P < 0.001, *P < 0.01, P < 0.05 或不显著 (NS)。比例尺,50 µm (c,e,g,k)。a、f 和 h 中的图表使用BioRender 创建。

图1

图1 | PathoPlex。 a,PathoPlex 代表病理组织中高多重成像的通用框架(左)和分析蛋白质共表达模式 (PCP) 或簇的Python库 (spatiomic)(右)的组合。b,生成簇的逐步解释。c,本研究所有实验数据集的总结。比例尺,50 μm。FC,折叠变化;p,像素。

图3

图3

图3 | 在人类DKD中识别钙介导的管状应激作为病机制。 a,使用DKD个体临床活检样本的实验设计示意图。b,颜色编码簇的时空分布。c,具有生物学意义的解释簇示例。d,DKD中差异丰度簇的识别。e,C19(代谢管状损伤)的时空分布图像。f,使用CellPose的细胞分割和细胞水平元簇的定义。g,具有高C19丰度的细胞水平元簇 (MC16) 示例,与近端小管 (PTs) 中的代谢损伤相关。比例尺,50 μm。

(注意:原文文档中见下一页的标题;根据提供文本编译标题。)

附加图表和数据

  • 对照和DKD的投影簇。
  • 簇丰度和签名。
  • 药物交互和蛋白贡献者。
  • 统计分析(log2[FC]、平均强度等)。
  • n = 18对照 (RCC),n = 20 DKD(晚期)。

(注意:未包括剩余35页。)

吴中四才子科举对比总结

人物对照表

人物 科举成绩 最高名次 仕途结果 文艺成就
祝允明 举人 举人 会试屡败,未入仕 书法大家
唐伯虎 解元(乡试第一) 解元 会试受牵连,仕途断绝 画坛巨匠,诗文俱佳
文徵明 多次应试未第 无功名 无功名,凭才入翰林院 书画双绝,影响深远
徐祯卿 进士 进士 曾任官职,早逝 才名横溢,著作丰富

结论:

  • 科举仕途最高:徐祯卿(唯一进士)。
  • 考试最风光:唐伯虎(解元,全省第一)。
  • 艺术成就最盛:祝允明、文徵明。

科举考试体系

  1. 童试(县、府、院试)

    • 通过者为 秀才(生员),是科举的入门资格。
  2. 乡试

    • 每三年一考,地点在省城。
    • 通过者为 举人,第一名是 解元
  3. 会试

    • 举人在京城参加。
    • 通过者为 贡士,第一名是 会元
  4. 殿试

    • 皇帝亲自主持。
    • 通过者为 进士,前三甲依次为 状元、榜眼、探花

科举人数规模(明清平均)

  • 秀才(生员):几十万(通过童试,全国总数约数十万)。
  • 举人:每三年全国约 1000–2000 人
  • 贡士:每三年约 300–400 人
  • 进士:每三年约 300–400 人(基本与贡士人数接近)。

换句话说:
十万秀才 → 千余举人 → 数百贡士 → 数百进士


总体总结

  • 仕途最高:徐祯卿 —— 唯一做到进士。
  • 考试最风光:唐伯虎 —— 乡试解元,全省第一。
  • 艺术成就最大:祝允明 & 文徵明 —— 书画书法成就远超仕途。
  • 科举本质:层层筛选,人数呈“金字塔式”递减,从数十万秀才到个位数的状元。

科举人数金字塔(示意图)

   ▲
   │ 状元(1人)
   │ 探花 / 榜眼(2人)
 ──┼────────────────
   │ 进士(约300–400人)
 ──┼────────────────
   │ 贡士(约300–400人)
 ──┼────────────────
   │ 举人(约1000–2000人)
 ──┼────────────────
   │ 秀才(数十万人)
   ▼

状元 信息汇总

一、状元的定义与历史背景

  • 状元 是在科举制度中 殿试(最后一关考试)中获得进士第一名 的称号,亦称“殿元”或“鼎元”。
  • 首见于唐代,状元称谓自宋代宋仁宗起逐渐定型,明清两代鼎盛使用 。
  • 文状元指文科第一;武举制度中,武举第一也称 武状元

二、科举结构中的状元名次

  • 殿试 中,所有贡士基本都能获得进士资格,但前 三甲 分别为:
    1. 状元(第一名)
    2. 榜眼(第二名)
    3. 探花(第三名)
      其他分别归属二甲、三甲。

三、著名“状元”实例

  • 唐朝

    • 中国最早有记录的状元可能是 孙伏伽(唐高祖武德年间)。
    • 另一说是 颜康成(651年)为最早状元。
    • 魏弘简(757–804年),780年代为殿试第一,后来官至太子校书。
  • 明代

    • 赵秉忠 为明代著名状元,其殿试卷被称为“状元卷”,保存完整,字迹整齐,内容体现其治国见解。他后官至礼部侍郎。
  • 清代

    • 武状元实例
    • 武举中也有状元:如 马瑔(后改名马全),既为武探花,又第二次殿试中获 武状元
    • 广泛流传的还有兄弟状元:刘荣庆(1784年武状元)与刘国庆(1789年武状元),中国科举史上极为罕见的“同宗皆为状元”典范。
    • 文学与地方状元
    • 苏州地区素有“状元之乡”美誉,自隋代以来至清末共出了 54 位文状元、6 位武状元,共计 60 位。
    • 官宦出身的状元家族
    • 吴钟骏:道光十二年殿试状元,官至翰林院修撰、礼部侍郎等职,是典型科举仕途走向。

四、总结一览表

类别 示例人物 特点简介
最早状元 孙伏伽 / 颜康成 唐代首批有明确记载的状元
著名状元 赵秉忠 “状元卷”至今保存完整,治政见解深刻
武状元典型 马瑔/马全;刘荣庆与刘国庆 文武皆有,兄弟双状元罕见
地方称号 苏州状元总数 出状元最多的城市之一
官宦仕途型 吴钟骏 状元出身,官至高位

唐寅诗词现代汉语翻译

以下是将唐寅(唐伯虎)四首代表作《桃花庵歌》《临终诗》《言志》《一剪梅·雨打梨花深闭门》翻译成现代汉语的版本,保留原诗意境与情感,同时使用简洁、通俗的语言,便于理解。

1. 《桃花庵歌》

原文

桃花坞里桃花庵,桃花庵下桃花仙。
桃花仙人种桃树,又摘桃花卖酒钱。
酒醒只在花前坐,酒醉还来花下眠。
半醒半醉日复日,花落花开年复年。
但愿老死花酒间,不愿鞠躬车马前。
车尘马足富者趣,酒盏花枝贫者缘。
若将富贵比贫贱,一在平地一在天。
若将贫贱比车马,他得驱驰我得闲。
别人笑我忒疯癫,我笑他人看不穿。
不见五陵豪杰墓,无花无酒锄作田。

现代汉语翻译

桃花坞里有座桃花庵,庵里住着桃花仙。
桃花仙人种桃树,摘下桃花换酒钱。
酒醒了就坐在花前,醉了就睡在花下。
半醉半醒日复一日,花开花落年复一年。
宁愿老死在花丛酒杯间,也不愿低头在车马前。
富人追逐车马喧嚣,穷人享受花枝酒盏。
富贵与贫穷相比,一个在天一个在地。
贫穷与车马相比,他们忙碌奔波,我却清闲自在。
别人笑我太疯癫,我笑他们看不透。
那些豪杰的墓地早已不见,徒留锄头耕田,无花无酒。

说明:翻译保留了原诗的隐逸情怀与对世俗功名的批判,用“疯癫”“看不透”等词保持唐寅的戏谑与豁达语气。

2. 《临终诗》

原文

生在阳间有散场,死归地府也何妨?
阳间地府俱相似,只当漂流在异乡。

现代汉语翻译

活在人间总有散场,死后去地府又何妨?
人间地府其实差不多,就像漂泊到外乡。

说明:翻译突出唐寅对生死的淡然态度,用“散场”“漂泊”等词语传递了原诗的从容与哲理感。

3. 《言志》

原文

不炼金丹不坐禅,不为商贾不耕田。
闲来写就青山卖,不使人间造孽钱!

现代汉语翻译

不炼丹药不打禅,不做生意不种田。
闲来画些青山卖,不赚人间黑心钱!

说明:翻译用“打禅”“黑心钱”等现代词汇,保留了唐寅拒绝世俗功利、追求艺术清白的志向,语气简洁明快。

4. 《一剪梅·雨打梨花深闭门》

原文

雨打梨花深闭门,忘了青春,误了青春。
赏心乐事共谁论?花下销魂,月下销魂。
愁聚眉峰尽日颦,千点啼痕,万点啼痕。
晓看天色暮看云,行也思君,坐也思君。

现代汉语翻译

雨打梨花门紧闭,忘了青春,错过青春。
美好时光与谁分享?花下痴迷,月下痴迷。
整日皱眉愁满面,泪痕点点,泪痕万点。
早上看天色晚上看云,走路想你,坐下想你。

说明:翻译保留了原词的哀婉与相思之情,用“痴迷”“泪痕点点”等词传递细腻情感,同时使语言更符合现代表达习惯。

总结

唐寅的诗词以其洒脱、感伤与哲理并存的风格,展现了他对自由、人生与情感的独特思考。以上翻译将古文转化为现代汉语,力求通俗易懂,同时保留原作的意境与情感,适合当代读者欣赏。

CRISPR-Cas9 脱靶率检测方法

CRISPR-Cas9 脱靶率检测方法

问题背景

在通过电转(Electroporation)结合 CRISPR-Cas9 技术完成蛋白敲除后,评估脱靶率(off-target rate)是关键步骤。脱靶率指 Cas9 在非目标位点发生切割导致的意外变异比例。以下为回答“简单测序方式(如 pool 测序)”的建议,重点推荐多位点扩增结合 NGS(amplicon deep sequencing),并澄清 pool 测序的概念。

推荐方法:多位点扩增 + NGS(Pool 测序)

什么是 Pool 测序?

在 CRISPR 脱靶检测中,pool 测序指:

  • 使用预测工具(如 CRISPOR、Cas-OFFinder)筛选潜在脱靶位点(通常几十到上百个)。
  • 针对这些位点(包括目标位点)进行 PCR 扩增(片段约 200–300 bp)。
  • 将所有扩增产物混合(pool)成一个测序文库,使用 NGS(如 Illumina,150 bp 读长)测序。
  • 通过分析每个位点的 reads,计算 indel 率(插入/缺失比例),即脱靶率。

为什么选它?

  • 简单:流程标准,实验室常用,操作直观。
  • 成本低:多个位点混库测序,远低于全基因组测序。
  • 结果直观:直接报告每个位点的 indel 率(如“位点A:0.5%”)。
  • 可优化:加入 UMI(唯一分子标签)可减少 PCR 偏差,提高低频脱靶检测精度。

操作步骤(概念版)

  1. 用 CRISPOR 或 Cas-OFFinder 预测脱靶位点。
  2. 设计引物,针对每个位点 PCR 扩增。
  3. 混合扩增产物,构建 NGS 文库。
  4. 上机测序,分析每个位点的 indel 率。

注意事项

  • 位点局限:仅覆盖预测位点,漏掉意外脱靶。需结合 GUIDE-seq 或 CIRCLE-seq 发现位点。
  • 测序深度:检测 <0.1% 低频脱靶需更高深度,增加成本。
  • 细胞背景:电转细胞类型可能影响脱靶谱,建议用实际样本验证。

其他方法(更全面)

如果担心漏检,可先用以下方法发现脱靶位点,再用 pool 测序定量:

  • GUIDE-seq:细胞内用寡核苷酸标记双链断裂,测序定位。优点是贴近真实环境,适合安全性评估。
  • CIRCLE-seq/CHANGE-seq:体外切割基因组 DNA,富集后测序,灵敏度高,适合生成候选位点清单。

Pool 测序 vs. 群体遗传学 Pool-seq

  • CRISPR 的 Pool 测序:同一样本内多个位点的扩增产物混合测序,保留样本信息,适合脱靶率分析。
  • 群体遗传学的 Pool-seq:混合多个个体 DNA 测序,研究群体变异,丢失个体信息,不适合单个样本的脱靶检测。

电转结合 CRISPR-Cas9 敲除原理

  • 电转:通过高压电场在细胞膜上开孔,将 Cas9 蛋白和 sgRNA(或 RNP 复合物)导入细胞。
  • CRISPR-Cas9:sgRNA 引导 Cas9 切割目标基因,造成双链断裂(DSB)。
  • 敲除:细胞通过非同源末端连接(NHEJ)修复,常产生 indel,导致基因失活,蛋白表达消失。
电转结合CRISPR-Cas9基因敲除_small

结论

多位点扩增 + NGS(Pool 测序)是最简单、性价比高的脱靶率检测方法,适合快速验证预测位点的编辑率。如需更全面分析,可结合 GUIDE-seq 或 CIRCLE-seq 发现意外位点,再用 pool 测序定量。


CRISPR 脱靶检测方法对比表

以下表格比较了 多位点扩增NGS(Amplicon-NGS,即 Pool 测序)GUIDE-seqCIRCLE-seq全基因组测序(WGS) 在检测 CRISPR-Cas9 脱靶率时的特点,供快速选择适合方法。

方法 原理 优点 局限 适用场景
Amplicon-NGS (Pool 测序) 针对预测位点 PCR 扩增,混合建库,NGS 测序计算 indel 率 – 成本低

– 操作简单,流程成熟
– 结果直观(位点 indel%)
– 仅限预测位点
– 无法发现意外脱靶
– 低频脱靶需高测序深度
快速验证已知位点的脱靶率;常规研究
GUIDE-seq 细胞内用寡核苷酸标记 Cas9 双链断裂,全基因组测序定位 – 贴近真实细胞环境

– 能发现意外脱靶
– 对低频位点较敏感
– 实验较复杂
– 某些细胞类型效率低
安全性评估;需全面发现脱靶的研究
CIRCLE-seq 体外基因组 DNA 环化,暴露 Cas9 切割,富集后测序 – 灵敏度高

– 操作较 GUIDE-seq 简便
– 易发现低频/意外位点
– 体外体系,可能与细胞内偏差
– 需细胞样本验证
生成广谱候选位点清单,结合验证
WGS 高深度全基因组测序,观察全局变异 – 覆盖全面 – 成本高

– 对低频脱靶敏感度低
– 数据分析复杂
临床级严谨需求;补充验证
CRISPR脱靶检测方法对比

决策建议

  • 简单需求:选 Amplicon-NGS,快速定量已知位点脱靶率。
  • 全面需求:先用 GUIDE-seq 或 CIRCLE-seq 发现位点,再用 Amplicon-NGS 验证和定量。
  • 高严谨性:WGS 作为补充,但成本较高。

回答:CRISPR-Cas9 敲除后脱靶率检测的简单测序方法

关于用电转结合CRISPR-Cas9敲除蛋白后,想知道脱靶率的简单测序方法,我推荐用多位点扩增结合NGS(amplicon deep sequencing),也就是您提到的“pool测序”。下面我简单说明怎么做,以及为什么它简单有效:

1. “Pool测序”是什么?

在这里,pool测序指的是:

  • 先用工具(如 CRISPOR、Cas-OFFinder)预测 Cas9 可能切错的脱靶位点(通常几十到上百个)。
  • 对这些位点(包括目标位点)做 PCR扩增,每个位点扩增出 200–300 bp 的片段。
  • 把所有扩增产物混合(pool)成一个测序文库,上机测序(比如 Illumina,150 bp 读长就够)。
  • 测序后,通过分析每个位点的 reads,计算 indel率(插入/缺失比例),这就是脱靶率。

2. 为什么选它?

  • 简单:实验流程成熟,很多实验室都用这套方法,操作像“套公式”一样直观。
  • 省钱:几十个位点混在一个文库里测,成本远低于全基因组测序。
  • 结果直观:直接告诉你每个位点的脱靶率(比如“位点A:0.5% indel”)。
  • 可优化:加 UMI(唯一分子标签)能减少 PCR 偏差,检测低频脱靶更准。

3. 注意事项

  • 位点选择:脱靶率分析只覆盖你预测的位点。如果担心漏掉意外脱靶,可以先用 GUIDE-seqCIRCLE-seq 找候选位点。
  • 测序深度:想看 0.1% 以下的低频脱靶,得增加测序深度,稍微多花点成本。
  • 细胞背景:电转的细胞类型可能影响脱靶谱,建议用你的实际样本测。

4. 简单操作步骤(概念版)

  1. 用软件预测脱靶位点(几十到上百个)。
  2. 设计引物,针对每个位点 PCR 扩增。
  3. 把扩增产物混在一起,建 NGS 文库。
  4. 上机测序,分析每个位点的 indel 率。

5. 如果想更全面?

如果您担心预测位点不全,可以先做:

  • GUIDE-seq:细胞内,贴近真实环境,发现意外脱靶。
  • CIRCLE-seqCHANGE-seq:体外,超高灵敏度。 这些方法能找到潜在脱靶位点,再用 pool 测序定量验证。

6. 小结

Pool测序(多位点扩增NGS)是最简单、性价比最高的脱靶率检测方法,特别适合您现在的情况。如果您有目标基因和 sgRNA 序列,我可以帮您整理更具体的位点预测或实验设计思路!您觉得需要更详细的方案吗?

微生物生物信息学

摘要

2030年的微生物生物信息学将继续保持其充满活力和创造性的学科特性,为不断增长的新序列数据增值,同时拥抱新技术和新方法。数据库和搜索策略将难以应对数据洪流,手工整理在迈向百万微生物基因组时代将不可持续。微生物分类学必须适应一种新情境,即大多数微生物通过序列分析被发现和表征。基因组测序将成为临床和研究实验室的常规方法,对用户友好的可解释输出提出了新的需求。“物联网”将渗透到医疗系统中,甚至医院管道系统可能都有自己的IP地址,可以与病原体基因组序列整合。微生物群热潮将继续,但潮流将从分子条形码转向宏基因组学。众包分析将与云计算碰撞,但防止微生物序列数据的误解和过度推销需要永恒的警惕。手持测序仪的输出将在移动设备上进行分析。开源培训材料将满足培养熟练劳动力的需求。随着我们大胆迈向21世纪第三个十年,微生物序列空间仍将是最终前沿!

微生物生物信息学在2030年将何去何从?

让我们先回顾过去。过去二十年,我们在微生物基因组测序能力上取得了惊人的进步(Loman and Pallen, 2025)。微生物生物信息学在很大程度上跟上了由此产生的数据洪流,现已明确成为一个独立的学科,由全球热心的微生物生物信息学家社区推动(Loman and Watson, 2023)。我们预计未来几年这一社区将继续增长,全球的微生物学家将应对已有的和新兴的挑战,包括抗菌素耐药性、微生物生物多样性、理解微生物群及其基因(微生物群落)、合成生物学以及基因组测序作为临床和研究实验室常规方法的采用(Cameron et al., 2024; Koser et al., 2024; Brown et al., 2025; Luheshi et al., 2025; Shanahan, 2025)。

值得强调的是,将生物信息学应用于微生物基因、基因组和宏基因组的研究确实提供了独特的挑战——与针对固定、相对易处理的人类、动物或植物基因组不同,我们必须处理来自数千种微生物病原体、数百万种共生微生物以及多达十亿种环境微生物物种的基因组信息(Locey and Lennon, 2026):一个由无数亿基因组成的分布式动态系统,比人类基因组大许多数量级。由此产生的序列数据洪流显然给微生物生物信息学带来了大数据问题(Eisenstein, 2025)。

当然,接近2030年时,有些事情将保持不变。专业微生物生物信息学家仍将主要在Linux操作系统上运行命令行程序,通常使用由开源软件构建的管道,结合自制脚本,尽管这些脚本将用Python而不是Perl编写(Myhrvold, 2024),或者可能使用一种尚未发明的新脚本语言。然而,不应排除商业软件包的作用,特别是在需要认证标准操作程序的应用中。不幸的是,到2030年,生物信息学作为微生物基因组学的支持技术与作为一个独立科学学科之间仍可能存在动态张力,这将反映在微生物生物信息学家的职业结构和晋升中的不确定性(Pevzner, 2004; Watson, 2023)。

随着本十年接近尾声,微生物基因组和宏基因组将越来越多,数据库和搜索策略是否能够应对仍不确定。即使在2026年,也没有简单的方法下载和搜索人类积累的宏基因组数据,而NCBI的所谓非冗余数据库的BLAST搜索在大量相同或近似序列的压力下开始吃力。这只会变得更糟——例如,到2030年,我们将拥有数十万甚至数百万个关键细菌物种的基因组序列,如大肠杆菌或结核分枝杆菌。需要新的数据存储和分析方法——例如,开发真正的非冗余BLAST数据库。

对微生物流行病学和微生物群体遗传学感兴趣的人,无论是研究还是临床环境,都需要应对从基于少数基因序列的系统(如多位点序列分型,Maiden, 2006)向全基因组方法的转变(Perez‐Losada et al., 2023; Ashton et al., 2026; Pankhurst et al., 2026)。一些活动,如个体爱好者或专门研究社区对序列或元数据的手工整理和注释,在迈向百万微生物基因组时代将不可持续。相反,机器学习和人工智能可能需要填补这一空白(Yip et al., 2023)。遗憾的是,数据库和其他生物信息学资源的资金持续性问题在未来几年可能仍未解决(Parkhill et al., 2020)。

在经历了激烈竞争后(Loman et al., 2022),高通量测序市场最近已趋于近乎垄断状态,Illumina短读长测序技术占据主导地位。虽然这种技术非常适合基因组重测序等应用,专注于检测单核苷酸变体,但它难以应对微生物基因组和宏基因组的多样性,特别是在查看移动遗传元素或辅助基因组时(Stoesser et al., 2024)。单分子长读长技术在2026年已可用(例如Pacific Biosystems或Oxford Nanopore),但仍处于边缘,尽管在展示原理应用(Loman et al., 2025; Quick et al., 2025, 2026)和开发专用生物信息学工具方面已取得进展(Loman and Quinlan, 2024; Rhoads and Au, 2025; Watson et al., 2025)。未来几年这一情况将如何变化尚不清楚——现有长读长技术会成为主流,还是会有新玩家进入市场?无论发生什么,已有和新的测序方法都将推动新的生物信息学工具的开发。同样,专注于单细胞基因组学和转录组学(Lasken and McLean, 2024)或微生物功能基因组学的方法(如RNA-Seq,Creecy and Conway, 2025;或Tn-Seq,Kwon et al., 2026)的新实验室技术将继续需要新软件。

微生物基因组学和宏基因组学正全速进入临床领域和全球微生物生物多样性绘图的努力(Pallen et al., 2020; Didelot et al., 2022; Robinson et al., 2023; Kyrpides et al., 2024; Brown et al., 2025; Luheshi et al., 2025; Spang et al., 2025)。在两种环境中,微生物分类学以其多相方法需要实验室培养和表型研究,已然崩溃,单纯无法应对大多数微生物通过大分子序列分析来识别和表征的时代(Chun and Rainey, 2024; Ramasamy et al., 2024; Thompson et al., 2025; Baltrus, 2026)。希望到2030年,新的分类学能够诞生,由微生物多样性生物信息学的创造力爆炸驱动并推动(Varghese et al., 2025)。同样,合成生物学从仅读取到主动写入DNA序列的愿望,无论是创建合成微生物还是在数据处理和存储方面的新方法,都将带来新的机会和挑战(Goldman et al., 2023; Boeke et al., 2026; Hutchison et al., 2026)。

微生物生物信息学与人类医疗的碰撞已导致新工具的开发,这种学科的创造性碰撞将改变生物信息学家的前景。在这里,我们可能会看到用于分析微生物基因组流行病学的工具的改进——例如,认识到病原体的细胞群体,就像癌症一样,可能是克隆的,但并不一定均质(Jamal‐Hanjani et al., 2025; Paterson et al., 2025)。新模型和新软件还需要认识到宿主内病原体多样性的问题,以及病原体系统发育并不简单映射到传播链上的事实(Didelot et al., 2024; Gardy, 2026)。但我们希望,即使如一些人所建议,宿主内细菌多样性使重建传播网络更困难,到2030年这将不再是一个不可逾越的问题(Worby et al., 2024)。

将微生物基因组学和生物信息学整合到临床实践中将带来新的需求,管道不仅需要可信、稳健和可重复,而且需要产生易于解释的、临床友好的输出,例如分析金黄色葡萄球菌和结核分枝杆菌基因组的程序Mykrobe(Bradley et al., 2025)。序列数据与临床元数据的整合将很困难,特别是精准医学需要精确的本体(Dugan et al., 2024)——例如,在分析医院暴发时,下一代NHS生物信息学家需要高度关注“床”和“床位空间”之间的区别。随着“物联网”渗透到医疗系统中,患者、仪器甚至医院家具或管道都将拥有自己的IP地址和GPS智能芯片,提供可与病原体基因组序列整合的信息,他们将在这些努力中得到协助(Hao and Wang, 2025)。

作为诊断方法的宏基因组学可能更接近常规实践(Loman et al., 2023; Doughty et al., 2024; Pallen, 2024; Wilson et al., 2024),但从宏基因组中可靠地区分病原体基因组——特别是如果短读长技术仍占主导地位——将是一个巨大的挑战(Alneberg et al., 2024)。

对微生物群的当前热潮看起来将继续,因此需要新的生物信息学工具来检测“病态微生物群”并将其与疾病状态联系起来(Forslund et al., 2025)。也许到2030年,潮流将从分子条形码方法(以16S核糖体RNA基因序列为代表,被称为独眼国王,Forney et al., 2004)转向更广泛采用的霰弹式宏基因组学(Jovel et al., 2026)。如果是这样,将需要新工具将宏基因组转化为微生物生态学的标准输出(稀疏曲线、多样性指数等)。同样,新的工具将在宏基因组学、宏转录组学、代谢组学和系统生物学的接口处出现(Franzosa et al., 2024)。

一个潜在的担忧是非专家进行的微生物基因组和微生物群分析的野蛮前沿的增长,他们通过不完全理解的管道手动处理数据,然后天真地解释结果,而没有老练专家的健康怀疑(Bhatt et al., 2023; Branton et al., 2023; Laurence et al., 2024; Salter et al., 2024; Strong et al., 2024; Ackelsberg et al., 2025; Afshinnekoo et al., 2025)。永恒的警惕可能是遏制微生物基因组占星术等价物的代价!

在硬件和软件供应方面,微生物生物信息学正从典型的自管服务器或由单一用户或研究小组运行的集群中脱离出来。一方面是移动设备应用程序的开发(Rose et al., 2023; Wong et al., 2023; Nguyen et al., 2024),与掌上测序的兴起并行(Quick et al., 2026),因此到2030年,测序和分析可能在现场或更靠近患者的地方进行。国家或跨国项目的集中化努力则朝另一个方向发展,旨在标准化创建、存储和分析微生物序列数据的协议,特别是在医疗保健方面,尽管到2030年这些努力可能尚未达成稳定的全球解决方案(Moran‐Gilad et al., 2025)。

另一个潜在趋势是全球生物信息学家进行的众包微生物生物信息学分析的兴起——已经有一些原理验证案例(Rohde et al., 2021; Gardy et al., 2025),到2030年我们可能会看到更多这种情况,特别是在应对公共卫生紧急情况时。同样,微生物生物信息学家可能会拥抱云计算(Drake, 2024),这在努力和成本上带来规模经济,解放终端用户免于维护系统和设置常用软件的麻烦,同时改进管道和数据的共享,从而提高生物信息学分析的可重复性。这里的一个有前景的例子是英国的微生物生物信息学云基础设施(CLIMB)项目,它为微生物学社区的终端用户提供通过OpenStack开源云计算环境提供的虚拟机访问(Connor et al., 2026)。

在2030年前微生物生物信息学的最后一个挑战是满足培训和培养熟练劳动力的需求(Via et al., 2023; Watson‐Haigh et al., 2023)。云计算可能在这里发挥作用,为研讨会和黑客马拉松以及研究小组提供标准化环境。同样,我们可以预期适合生物信息学训练营的开源培训材料将继续增加,以及新的工作流程和数据整合系统的开发,如基因组虚拟实验室(Afgan et al., 2025)。

结论

2030年的微生物生物信息学将继续是一个充满活力和创造性的学科,为不断增长的新序列数据增值,同时拥抱新技术和新方法。随着我们大胆迈向21世纪第三个十年,微生物序列空间仍将是最终前沿!

Workflow for single-cell RNAseq (scRNAseq)

/media/jhuang/Elements(Denise_ChIPseq)/Data_Jingang/GSE163973_KF_NS_done/seurat0**.Rmd[R]

https://nbisweden.github.io/workshop-scRNAseq/

https://github.com/NBISweden/workshop-scRNAseq/

https://github.com/NBISweden/workshop-scRNAseq/blob/master/labs/seurat/seurat_06_celltyping.qmd

https://github.com/NBISweden/workshop-scRNAseq/blob/master/labs/seurat/seurat_07_trajectory.qmd

Project Workflow

The analysis is organized into seven steps, each corresponding to an R Markdown file:

  1. 01_qc – Quality control of the raw data.
  2. 02_dimension_reduction – Dimensionality reduction (e.g., PCA, UMAP).
  3. 03_integration – Data integration using the Harmony library to align datasets and mitigate batch effects. This step also includes normalization (NormalizeData) and selection of highly variable genes (FindVariableFeatures) for each dataset before integration.
  4. 04_clustering – Identification of cell clusters.
  5. 05_dge – Differential gene expression analysis.
  6. 06_celltype – Cell type annotation.
  7. 07_trajectory
  8. 08_spatial – if applicable

This structure should help you follow the workflow step by step.

Harmony in R: Integration vs. Batch Effect Removal

Harmony is a tool commonly used in single-cell RNA-seq analysis. Its main purpose is data integration, but it also effectively removes batch effects. Here’s a breakdown:


1. What Harmony Does

  • Aligns multiple datasets (from different batches, labs, conditions, or technologies) in a shared low-dimensional space (e.g., PCA).
  • Reduces technical variation (batch effects) while preserving biological differences.
  • Produces a “corrected” dataset suitable for downstream analysis like clustering or visualization.

2. Integration vs. Batch Effect Removal

Term Meaning
Batch Effect Removal Focuses only on removing technical variation between batches. May distort biological differences.
Integration Aligns datasets from different batches or conditions, minimizing batch effects while keeping biological variation intact. Harmony achieves this by iteratively adjusting cells’ embeddings.

3. Conceptual Diagram

Batch 1: A1 A2 A3 →

Batch 2: B1 B2 B3 —-> [Harmony] —> Integrated Space (similar cell types cluster together) Batch 3: C1 C2 C3 →

  • Arrows indicate the mapping of cells from separate batches into a shared low-dimensional space.
  • Cells of the same type cluster together, regardless of batch.

4. Summary

  • Harmony = integration tool.
  • Batch effect removal = part of the integration process.
  • Integration = alignment of datasets with biological signals preserved.