最新NCBI数据上传流程
实验做完后,最重要的一步就是把测序得到的原始序列上传到NCBI。这对常年混迹在SCI界的大侠来说,是小菜一碟。但是对于初入二代高通量测序的小白来说,却是一个不大不小的难题。
这里我们将介绍最新的NCBI数据上传教程。希望可以助各位一臂之力。这里以常做的扩增子测序数据上传为例,手把手的教您数据上传。
STEP1 :登录或注册NCBI账户
进入 NCBI 首页,注册账号并激活,登陆 NCBI(有账户的,请直接登录)。
STEP2:进入SRA数据库
点击首页“submit”模块,进入数据上传页面,选择 SRA 数据库(Sequence Read Archive)。
STEP 3:提交新的项目
点击 “New submission”,正式进入项目填写页面。
STEP 4:填写个人信息
填写上传者个人信息,带 * 的必填,Continue 下一步。
STEP 5:确定数据释放时间
确定是否已新建 Bioproject、Biosample 及数据释放时间(由于NCBI的页面会不定期更新,请老师仔细阅读选项内容进行选择,此处选择没有 Bioproject、Biosample, 并设定数据释放日期),Continue 下一步。
STEP 6:填写项目信息
带*的必填,Continue 下一步。
STEP 7:选择实验中样本的类型 Sample Type
比如土壤,选择Metagenome or environmental sample,Continue 下一步。
STEP 8:完善样本 Biosample 信息
这里提供了2种数据上次方式:
1、网页在线编辑样本属性信息;
2、从网站中下载excel“Download Excel”,将样本属性填好后,上传。(如果样本较多,建议选择该方法。)下表为所填的表格。
填表注意事项:
A) *为必填项;
B) Sample name:填写文章中图表上面对应的样本名称;
C) organism:需要按指定格式填写“样本来源 metagenome”;
D) collection_date:若没有记录采样时间,则填“missing” 或“not collected”,若有样本采集时间需要填写,需要按表格指定的格式来填写,如“2018年3月10日”可以以“10-May-2018”格式来填写;
E)geo_loc_name:填写样本的采集地区,例如“China:Shandong”。
F) lat_lon:填写样本采集地点的经纬度,如果没有记录采集地的经纬度,则填“missing” 或“not collected”
G) 每列内容需符合相应格式,点击相应表格或下载查阅帮助文档会有相关填写提示。
表格写好后,将表格进行上传。
STEP 9:完善样本测序数据 Metadata 信息(类比Biosample 信息填写)
同 Biosample Attributes,这里也提供了2种上传方式。
1、网页在线编辑;
2、从网站中下载excel文件“Download Excel”,将表格填好后,上传。(如果样本较多,建议选择该方法。)
3、表格参数选填(仅供参考)
sample_name:填写对应的样本名称;
library_ID:填写文库的编号;
library_strategy:AMPLICON;
library_source: METAGENOMIC;
library_selection: PCR;
library_layout: paired;
platform: illumine;
instrument_model:具体测序平台请咨询测序公司;
design_description:写测序区域,比如测的是16S V3-V4区,那么这里写 16S V3-V4;
filetype:fastq.
filename:由于测序时是双端测序,分别在filename和filename2填写对应的R1和R2序列。如A1样本对应的为A1_R1.fastq和A1_R2.fastq。
表格完成后,点击上传,继续进行下一步。
STEP 10:上传测序数据
单端测序的要求每个样本对应一个fastq文件,双端测序的要求每个样品对应2个fastq文件。目前微生物多样性检测一般是双端测序即PE测序,2个fastq文件。目前提供了3种上传方式:
1、网页 http 上传;(样本较少、数据量交小的推荐此方式)
2、FTP或Aspera插件上传;(样本多,数据量大(数据>2G),可以选择该方式上传)
3、亚马逊S3上传。
STEP 11:仔细检测所填信息
如果填写没问题,请提交。
STEP 12:查询SRA号
提交数据后的第二天,再次登录NCBI或登录填写的邮箱,就可以查看到SRA号。

