最新NCBI数据上传流程

实验做完后，最重要的一步就是把测序得到的原始序列上传到NCBI。这对常年混迹在SCI界的大侠来说，是小菜一碟。但是对于初入二代高通量测序的小白来说，却是一个不大不小的难题。
这里我们将介绍最新的NCBI数据上传教程。希望可以助各位一臂之力。这里以常做的扩增子测序数据上传为例，手把手的教您数据上传。

STEP1 ：登录或注册NCBI账户

进入 NCBI 首页，注册账号并激活，登陆 NCBI（有账户的，请直接登录）。

STEP2：进入SRA数据库

点击首页“submit”模块，进入数据上传页面，选择 SRA 数据库（Sequence Read Archive）。

STEP 3：提交新的项目

点击 “New submission”，正式进入项目填写页面。

STEP 4：填写个人信息

填写上传者个人信息，带 * 的必填，Continue 下一步。

STEP 5：确定数据释放时间

确定是否已新建 Bioproject、Biosample 及数据释放时间（由于NCBI的页面会不定期更新，请老师仔细阅读选项内容进行选择，此处选择没有 Bioproject、Biosample, 并设定数据释放日期），Continue 下一步。

STEP 6：填写项目信息

带*的必填，Continue 下一步。

STEP 7：选择实验中样本的类型 Sample Type

比如土壤，选择Metagenome or environmental sample，Continue 下一步。

STEP 8：完善样本 Biosample 信息

这里提供了2种数据上次方式：
1、网页在线编辑样本属性信息；
2、从网站中下载excel“Download Excel”，将样本属性填好后，上传。（如果样本较多，建议选择该方法。）下表为所填的表格。

填表注意事项：
A) *为必填项；
B) Sample name:填写文章中图表上面对应的样本名称；
C) organism:需要按指定格式填写“样本来源 metagenome”；
D) collection_date:若没有记录采样时间，则填“missing” 或“not collected”，若有样本采集时间需要填写，需要按表格指定的格式来填写，如“2018年3月10日”可以以“10-May-2018”格式来填写；
E)geo_loc_name:填写样本的采集地区，例如“China:Shandong”。
F) lat_lon:填写样本采集地点的经纬度，如果没有记录采集地的经纬度，则填“missing” 或“not collected”
G) 每列内容需符合相应格式，点击相应表格或下载查阅帮助文档会有相关填写提示。
表格写好后，将表格进行上传。

STEP 9：完善样本测序数据 Metadata 信息（类比Biosample 信息填写）

同 Biosample Attributes，这里也提供了2种上传方式。

1、网页在线编辑；
2、从网站中下载excel文件“Download Excel”，将表格填好后，上传。（如果样本较多，建议选择该方法。）

3、表格参数选填（仅供参考）
sample_name:填写对应的样本名称；
library_ID：填写文库的编号；
library_strategy：AMPLICON；
library_source: METAGENOMIC；
library_selection: PCR；
library_layout: paired；
platform: illumine；
instrument_model：具体测序平台请咨询测序公司；
design_description:写测序区域，比如测的是16S V3-V4区，那么这里写 16S V3-V4；
filetype：fastq.
filename：由于测序时是双端测序，分别在filename和filename2填写对应的R1和R2序列。如A1样本对应的为A1_R1.fastq和A1_R2.fastq。
表格完成后，点击上传，继续进行下一步。

STEP 10：上传测序数据

单端测序的要求每个样本对应一个fastq文件，双端测序的要求每个样品对应2个fastq文件。目前微生物多样性检测一般是双端测序即PE测序，2个fastq文件。目前提供了3种上传方式：

1、网页 http 上传；（样本较少、数据量交小的推荐此方式）
2、FTP或Aspera插件上传；（样本多，数据量大（数据>2G），可以选择该方式上传）
3、亚马逊S3上传。

STEP 11：仔细检测所填信息

如果填写没问题，请提交。

STEP 12：查询SRA号

提交数据后的第二天，再次登录NCBI或登录填写的邮箱，就可以查看到SRA号。