很多人第一次在 NCBI 点“Start a new submission”会懵:这么多入口到底选哪个?下面给你一棵从目标出发的决策树,按着走基本不会错。如果你要公开的是“数据文件”(FASTQ/FASTA/组装/注释),不要选 GTR;如果你要公开的是“某个临床/研究检测项目的服务说明”,才选 GTR。
✅ 第一步:你要提交的是“原始测序数据”还是“组装/注释结果”?
A. 我有 FASTQ(原始 reads:Illumina/Nanopore/PacBio)
➡️ 选 Sequence Read Archive (SRA)
- 你提交的是:reads + 文库信息(平台、PE/SE、策略等)
- 几乎所有文章要求原始数据可复现,都需要 SRA
同时你通常还需要:
- BioSample(每个样本的“身份证”)
- BioProject(把整个项目的数据串起来)
✅ 常见路径:BioProject → BioSample → SRA
B. 我有组装好的基因组(contigs/scaffolds/complete genome)
➡️ 选 Genome(基因组提交主入口)
- 适合:细菌/真菌/病毒/真核的 draft 或 complete genome
- 会与 GenBank/Assembly 体系关联(后续可公开检索引用)
同时通常还需要:
- BioSample(样本来源信息)
- BioProject(项目汇总)
- (可选但强烈建议)SRA(如果你也愿意公开原始 reads)
✅ 常见路径:BioProject → BioSample → SRA(可选/建议)→ Genome
C. 我只有一个基因/片段/质粒序列(不是整套基因组项目)
➡️ 选 GenBank
- 适合:单基因、片段序列、单独的质粒序列、特定区域序列
- 如果你在做“系统的基因组项目”,通常走 Genome 更合适;GenBank更像“序列条目提交”。
D. 我有转录组拼装结果(assembled transcripts,不是 reads)
➡️ 选 TSA(Transcriptome Shotgun Assembly)
- TSA 提交的是:拼装后的转录本序列
- 原始 RNA-seq reads 仍应走 SRA
✅ 常见路径:BioProject → BioSample → SRA → TSA
✅ 第二步:你提交的是“临床敏感人类数据/变异解释/检测项目”吗?
E. 数据涉及人类受试者隐私、需要受控访问(表型+基因型/临床队列)
➡️ 选 dbGaP(受控访问)
- 适合:人类敏感数据
- 常伴随伦理/权限/审查流程(不是完全公开下载)
F. 你要提交“变异的临床意义解读”(致病性、证据、表型关联)
➡️ 选 ClinVar
- 适合:临床实验室/研究团队共享变异解释
G. 你要登记“遗传检测项目/检测服务信息”
➡️ 选 GTR(Genetic Testing Registry)
- 更像“检测项目注册”,不是上传测序数据本体
✅ 第三步:你是不是在管理一个“项目集合”?
H. 你有多个样本/多批数据/多类型数据(SRA + Genome + 其它)
➡️ 建议先建 BioProject
- 作用:项目总目录,方便引用与检索
I. 你每一个样本都需要可追溯的元数据(来源、地点、日期、宿主等)
➡️ 基本都需要 BioSample
- 作用:样本身份证;SRA/Genome 通常都要挂它
终极“快速选择口诀”
- FASTQ 原始 reads → SRA
- 基因组组装(contigs/scaffolds/complete)→ Genome
- 转录本拼装(transcripts)→ TSA
- 单基因/片段/质粒序列条目 → GenBank
- 把所有东西串成一个项目 → BioProject
- 每个样本来源信息 → BioSample
- 人类敏感受控数据 → dbGaP
- 临床变异解释 → ClinVar
- 遗传检测项目登记 → GTR
- 批量/自动化 → API
下面是对 GTR(Genetic Testing Registry,遗传检测注册库) 的更详细中文说明。
GTR 是什么?
GTR 是 NCBI 上一个“登记遗传检测项目/检测服务信息”的公共目录,由提供检测的实验室/机构自愿提交,目的是让公众、临床医生和研究人员能查到:某个疾病/基因/病原体有哪些检测、由哪些实验室提供、检测方法是什么、适用范围和证据如何等。(NCBI)
关键点:GTR 不是用来上传 FASTQ/基因组序列的。
- 原始测序数据 → SRA
- 基因组组装/注释 → Genome / GenBank
- GTR → 登记“检测项目本身”的信息(类似检测项目黄页/目录) (NCBI)
GTR 收录哪些“检测”?
GTR 的范围不仅是传统“单基因遗传病检测”,也包括:
- 孟德尔遗传病、药物反应(药物基因组学)相关检测
- 肿瘤/体细胞变异检测
- 多基因 panel、芯片(array)、生化、细胞遗传、分子检测 (NCBI)
- 微生物/病原体相关检测(例如病原体 panel、病毒载量、血清学抗体/抗原检测等) (NCBI)
在 GTR 里,一个“检测条目”通常会包含哪些信息?
你可以把它理解为“一个检测项目的说明书 + 实验室信息”组合,常见字段包括:
- 检测目的/用途:诊断、携带者筛查、预后、用药指导等 (NCBI)
- 检测对象(Target):基因/区域、变异类型、或病原体靶标等
- 方法学(Methodology):例如 PCR、Sanger、NGS panel、MLPA、芯片、qPCR、Nanopore 等(写清楚平台与策略)(NCBI)
- 适应证/关联疾病(Indication/Condition):对应哪些疾病/表型;并可建立“检测—靶标—适应证”的声明关系 (NCBI)
- 性能与证据:分析/临床有效性、参考文献、指南或标准等(GTR强调用途与证据展示)(NCBI)
- 实验室信息:机构名称、联系人、资质/认证信息、可提供的服务范围等 (NCBI)
- GTR accession:每个检测都有唯一编号,便于在论文/EHR 中引用。(NCBI)
谁应该提交 GTR?
主要是提供遗传/分子检测服务的实验室或机构(临床检验科、第三方医学检验所、商业检测机构、研究机构实验室等)。(NCBI)
如果你只是做科研并想公开数据:
- 数据公开通常走 BioProject/BioSample + SRA + Genome/GenBank
- 不一定需要 GTR(除非你在对外提供一个“检测项目/检测服务”)(NCBI)
GTR 怎么提交?(流程概览)
GTR 提交一般是两步走:
1)先注册“实验室(Laboratory record)”
先把实验室作为一个实体登记,GTR 会审核/联系新注册者;实验室通过后才可以提交具体检测项目。(NCBI)
2)再提交“检测(Test record)”
有两种方式:
- 网页交互式提交:在提交门户里逐页填写信息(适合少量检测)(NCBI)
- 批量提交(Excel 模板):适合大量临床检测项目;可用全字段或最小字段模板上传(研究检测的批量上传通常不开放/不支持)。(NCBI)
GTR vs ClinVar vs dbGaP:最容易混淆的三兄弟
- GTR:登记“检测项目/检测服务”信息(谁提供、怎么测、测什么、适应证/证据)(NCBI)
- ClinVar:提交“变异—临床意义”的解释与证据(致病性分类等)(你贴里之前也提过)
- dbGaP:人类敏感数据(基因型/表型)受控访问的归档库