三代测序数据

  再来看看江湖呼声渐涨的三代测序技术。目前三代测序市场上,表现最为抢眼的莫过于以PacBio公司的SMRT和Oxford Nanopore Technologies为代表的纳米孔单测序技术。与前两代相比,三代测序最为核心的特点就是单测序,测序过程无需进行PCR扩增。

  PacBio SMRT技术其实也应用了边合成边测序的思想,并以SMRT芯片为测序载体。测序时,不需要对目标DNA进行PCR扩增,而是直接在目标片段两端加上两个发卡结构的接头,形成一个连续的环状结构。也因此,PacBio系统在读长上显示了极大的优势。目前比较受市场热捧的三代测序是PacBio的RSⅡ和2015年推出的Sequel。

  PacBio下机产生的序列文件以HDF5格式存储。可以采用h5dump命令来查看H5文件内容。

  Oxford Nanopore 公司2005年在英国成立,其运用的纳米孔测序技术使得DNA链在一个单通道中就能够被解码和识别,而不需要将长链打断成小短链。由于实现了DNA聚合酶内在自身的延续性和反应速度,Nanopore读长更长速度更快;同时由于能直接检测每个碱基的特征性电流,因而能对修饰碱基进行测序,对于表观遗传学研究具有极高的价值;因此,这款长到天际的测序仪,非常有潜力当前测序格局。

  2014年春天推出U盘大小的便携式MinION测序仪,仪器售价仅需$1000,据官网报道最长Reads可长达960 Kb,2014年10月推出平板大小的台式测序仪PromethION,有48个flow cell,可以单独运行也可以并行,2017年推出桌面式GridION X5测序仪。

  Nanopore目前还主要在测试和生产阶段,尚未大规模应用,其应用主要体现在微生物等小基因组生物上。推出至今,其最亮眼的表现莫过于2014年西非埃博拉病毒爆发,MinION以最快的速度破译病毒序列,名噪一时。随着独特的纳米孔技术的成熟和完善,未来在即时检测、太空应用、大众检测等方面会有很大的想象空间。

  Nanopore测序得到的序列文件的格式基础也是HDF5(),下机产生后缀为Fast5的序列文档。Fast5文件可经由Poretools软件()转换为Fastq文件或Fasta,然后进行后续数据分析。

  总结一下,在测序市场中,一代测序因其准确度高,仍作为突变检测、单菌鉴定等的金标准而存在;以illumina HiSeq和MiSeq为代表的二代测序势头强劲,主打低成本和高通量,2017新机型NovaSeq更已将测序成本降至百美金;科研市场上三代测序最常见的莫过于PacBio,辅以冉冉上升的新星Nanopore等,主打长读长策略,直击二代测序碎片化序列的软肋,在基因组de novo上表现不俗,错误率较高,但可被矫正。

  回到我们今天的主题---数据格式上,一代测序主要是读取峰图文件后为Fasta格式;二代测序中illumina原始读取数据为BCL,下游分析中为Fastq格式;454下机序列为SFF格式,后续分析中为Fna-Qual格式使用;Ion Torrent下机序列为WELLS格式,下游分析中为Bam格式;三代测序的两大主流系统PacBio和Nanopore,其下机数据都以HDF5格式为基础,后续为Fastq格式进行下游分析。

  不管一代、二代还是三代的数据分析中,原始下机数据都以二进制文件为主,原因无他,相比于文本文件,二进制文件在存储上更为经济集约。二进制文件本身是难于阅读的,并且很难改动,所以,我们可以乐观的认为,二进制文件造假的可能性是很低的。二进制的数据拿到之后,我们想要把数据转换成正能看懂的格式,这时身为文本文件的Fastq就应运而生了,Fastq文件会被用于质控及比对等后续分析。

  总之,Fastq是当前最为主流认可的序列数据存储格式,不管哪一代测序技术,什么样的原始数据,都免不了要打上Fastq格式的烙印,Fastq文件的格式及使用已经成为高通量测序学习中当仁不让的第一站。