Daily Archives: 2026年2月16日

NCBI 提交入口怎么选?一张“决策树”帮你不走弯路(GenBank / SRA / Genome / TSA / BioProject / BioSample / dbGaP / GTR / ClinVar)

很多人第一次在 NCBI 点“Start a new submission”会懵:这么多入口到底选哪个?下面给你一棵从目标出发的决策树,按着走基本不会错。如果你要公开的是“数据文件”(FASTQ/FASTA/组装/注释),不要选 GTR;如果你要公开的是“某个临床/研究检测项目的服务说明”,才选 GTR。


✅ 第一步:你要提交的是“原始测序数据”还是“组装/注释结果”?

A. 我有 FASTQ(原始 reads:Illumina/Nanopore/PacBio)

➡️ 选 Sequence Read Archive (SRA)

  • 你提交的是:reads + 文库信息(平台、PE/SE、策略等)
  • 几乎所有文章要求原始数据可复现,都需要 SRA

同时你通常还需要:

  • BioSample(每个样本的“身份证”)
  • BioProject(把整个项目的数据串起来)

✅ 常见路径:BioProject → BioSample → SRA


B. 我有组装好的基因组(contigs/scaffolds/complete genome)

➡️ 选 Genome(基因组提交主入口)

  • 适合:细菌/真菌/病毒/真核的 draft 或 complete genome
  • 会与 GenBank/Assembly 体系关联(后续可公开检索引用)

同时通常还需要:

  • BioSample(样本来源信息)
  • BioProject(项目汇总)
  • (可选但强烈建议)SRA(如果你也愿意公开原始 reads)

✅ 常见路径:BioProject → BioSample → SRA(可选/建议)→ Genome


C. 我只有一个基因/片段/质粒序列(不是整套基因组项目)

➡️ 选 GenBank

  • 适合:单基因、片段序列、单独的质粒序列、特定区域序列
  • 如果你在做“系统的基因组项目”,通常走 Genome 更合适;GenBank更像“序列条目提交”。

D. 我有转录组拼装结果(assembled transcripts,不是 reads)

➡️ 选 TSA(Transcriptome Shotgun Assembly)

  • TSA 提交的是:拼装后的转录本序列
  • 原始 RNA-seq reads 仍应走 SRA

✅ 常见路径:BioProject → BioSample → SRA → TSA


✅ 第二步:你提交的是“临床敏感人类数据/变异解释/检测项目”吗?

E. 数据涉及人类受试者隐私、需要受控访问(表型+基因型/临床队列)

➡️ 选 dbGaP(受控访问)

  • 适合:人类敏感数据
  • 常伴随伦理/权限/审查流程(不是完全公开下载)

F. 你要提交“变异的临床意义解读”(致病性、证据、表型关联)

➡️ 选 ClinVar

  • 适合:临床实验室/研究团队共享变异解释

G. 你要登记“遗传检测项目/检测服务信息”

➡️ 选 GTR(Genetic Testing Registry)

  • 更像“检测项目注册”,不是上传测序数据本体

✅ 第三步:你是不是在管理一个“项目集合”?

H. 你有多个样本/多批数据/多类型数据(SRA + Genome + 其它)

➡️ 建议先建 BioProject

  • 作用:项目总目录,方便引用与检索

I. 你每一个样本都需要可追溯的元数据(来源、地点、日期、宿主等)

➡️ 基本都需要 BioSample

  • 作用:样本身份证;SRA/Genome 通常都要挂它

终极“快速选择口诀”

  • FASTQ 原始 reads → SRA
  • 基因组组装(contigs/scaffolds/complete)→ Genome
  • 转录本拼装(transcripts)→ TSA
  • 单基因/片段/质粒序列条目 → GenBank
  • 把所有东西串成一个项目 → BioProject
  • 每个样本来源信息 → BioSample
  • 人类敏感受控数据 → dbGaP
  • 临床变异解释 → ClinVar
  • 遗传检测项目登记 → GTR
  • 批量/自动化 → API

下面是对 GTR(Genetic Testing Registry,遗传检测注册库) 的更详细中文说明。


GTR 是什么?

GTR 是 NCBI 上一个“登记遗传检测项目/检测服务信息”的公共目录,由提供检测的实验室/机构自愿提交,目的是让公众、临床医生和研究人员能查到:某个疾病/基因/病原体有哪些检测、由哪些实验室提供、检测方法是什么、适用范围和证据如何等。(NCBI)

关键点:GTR 不是用来上传 FASTQ/基因组序列的。

  • 原始测序数据 → SRA
  • 基因组组装/注释 → Genome / GenBank
  • GTR → 登记“检测项目本身”的信息(类似检测项目黄页/目录) (NCBI)

GTR 收录哪些“检测”?

GTR 的范围不仅是传统“单基因遗传病检测”,也包括:

  • 孟德尔遗传病、药物反应(药物基因组学)相关检测
  • 肿瘤/体细胞变异检测
  • 多基因 panel、芯片(array)、生化、细胞遗传、分子检测 (NCBI)
  • 微生物/病原体相关检测(例如病原体 panel、病毒载量、血清学抗体/抗原检测等) (NCBI)

在 GTR 里,一个“检测条目”通常会包含哪些信息?

你可以把它理解为“一个检测项目的说明书 + 实验室信息”组合,常见字段包括:

  1. 检测目的/用途:诊断、携带者筛查、预后、用药指导等 (NCBI)
  2. 检测对象(Target):基因/区域、变异类型、或病原体靶标等
  3. 方法学(Methodology):例如 PCR、Sanger、NGS panel、MLPA、芯片、qPCR、Nanopore 等(写清楚平台与策略)(NCBI)
  4. 适应证/关联疾病(Indication/Condition):对应哪些疾病/表型;并可建立“检测—靶标—适应证”的声明关系 (NCBI)
  5. 性能与证据:分析/临床有效性、参考文献、指南或标准等(GTR强调用途与证据展示)(NCBI)
  6. 实验室信息:机构名称、联系人、资质/认证信息、可提供的服务范围等 (NCBI)
  7. GTR accession:每个检测都有唯一编号,便于在论文/EHR 中引用。(NCBI)

谁应该提交 GTR?

主要是提供遗传/分子检测服务的实验室或机构(临床检验科、第三方医学检验所、商业检测机构、研究机构实验室等)。(NCBI)

如果你只是做科研并想公开数据:

  • 数据公开通常走 BioProject/BioSample + SRA + Genome/GenBank
  • 不一定需要 GTR(除非你在对外提供一个“检测项目/检测服务”)(NCBI)

GTR 怎么提交?(流程概览)

GTR 提交一般是两步走:

1)先注册“实验室(Laboratory record)”

先把实验室作为一个实体登记,GTR 会审核/联系新注册者;实验室通过后才可以提交具体检测项目。(NCBI)

2)再提交“检测(Test record)”

有两种方式:

  • 网页交互式提交:在提交门户里逐页填写信息(适合少量检测)(NCBI)
  • 批量提交(Excel 模板):适合大量临床检测项目;可用全字段或最小字段模板上传(研究检测的批量上传通常不开放/不支持)。(NCBI)

GTR vs ClinVar vs dbGaP:最容易混淆的三兄弟

  • GTR:登记“检测项目/检测服务”信息(谁提供、怎么测、测什么、适应证/证据)(NCBI)
  • ClinVar:提交“变异—临床意义”的解释与证据(致病性分类等)(你贴里之前也提过)
  • dbGaP:人类敏感数据(基因型/表型)受控访问的归档库