4月23号,由深圳华大生命科学研究院和美国Complete Genomics共同研发的stLFR技术成果正式发表于Genome Research,并受到GenomeWeb特别推荐。
随着基因组学研究的深入,单体型信息和结构变异受到科学家更多的关注。文章作者基于无分隔共标记理念和高通量短读长测序技术开发了一种长片段DNA信息获取方法single-tube Long Fragment Read (stLFR),能在单管中完成所有实验流程。为了实现这一目标,stLFR技术在微珠的表面通过排列组合的方式生成多达36亿种独特的条形码,从而保证每个样品所使用的5000万种条形码之间没有重复。
使用stLFR技术,可将超过800万条长度在20-300kb的基因组DNA片段分别标记上独特的条形码。研究者通过对NA12878基因组DNA构建的stLFR文库进行分析,获得了高质量的变异检测以及可以高精度定相分析的结果,其定相区块的N50长度可达34 Mb。此外研究者还进行了复杂结构变异的检测以及对NA12878的二倍体从头组装。
stLFR文库构建的第一步是带有转座序列的转座酶复合体与长DNA分子结合,转座序列会插入到长DNA片段中,由于转座酶的作用DNA仍然保持长链状态,然后带有独特条形码磁珠杂交捕获带有转座酶复合体的长DNA分子(带有条形码磁珠的直径为2.8μm,周长为8.8μm,100kb 的长片段分子DNA 长度为34μm,在捕获时,长片段分子DNA能绕磁珠3圈,每个磁珠上带有约400000条序列相同的寡核苷酸,这段寡核苷酸由Linker,Barcode序列和公共杂交序列组成,公共杂交序列与转座酶上带有的转座子互补杂交)。DNA被Beads 捕获后,通过连接反应,转座子序列会被连接到Barcode 序列上,再经过后续生化反应,去除磁珠表面多余未杂交捕获转座子序列的带有条形码序列的寡核苷酸,变性转座酶蛋白后长片段DNA彻底被打断成200-1000bp左右的小片段,然后在小片段的另外一端加上一个可以用于PCR的接头,就能获得stLFR文库,用MGI-2000或BGISEQ-500测序仪测序。
研究结果
文章中对比了4个不同策略的stLFR文库与10X Genomics、IlluminaBeads Haplotyping以及BGI常规WGS和 PCR-free WGS文库的变异检测结果(图1)。在InDel的检测上,4种不同策略的stLFR文库无论数据量是多还是少,在未过滤时都比同类型的10X Genomics和Illumina Beads Haplotyping的表现要好很多。在SNP检测上,stLFR文库也会略优于10X Genomics和Illumina BeadsHaplotyping的结果。并且经过算法优化过滤之后stLFR的准确性和灵敏度都有所提升。
图 1 变异检测结果统计
文中将1ng DNA起始量的stLFR-1文库测到的所有的Reads比对到原来11号染色体的10-350kb区域,挑取4个条形码(Barcode)下所有Reads,这些Reads还原了4条长片段DNA分子(如图2)。
图 2 四个条形码(Barcode)下所有Reads比对到11号染色体
研究者使用带有共标记条形码的短读序列,可以轻松获得二倍体基因组上的定相信息,可有效解析基因调控和编码区变异组合。在40X深度下,stLFR文库数据定相区块N50值可达34 Mb,能被定相的杂合位点比例高达99.7%(如图3)。
图3 stLFR 定相区块在染色体上的分布情况
利用分子标签和长片段信息,stLFR可以对多种结构变异进行准确检测。文章展示了stLFR对NA12878中在其他文献中报道的SV的准确检测结果(图4A)。显示stLFR 技术能准确检测到NA12878中8号染色体的150Kb的杂合缺失(图4B和4C)。文中还用一些已知结构变异的样本进行验证,研究者分别对携带5号染色体和12号染色体平衡易位的样本(图4D)和已知2号染色体染色体内倒位的GM20759细胞系样本(图4E)进行检测,显示均能检测到与已知一致的结构变异。当stLFR的数据量降低到5Gb时,仍然能准确地检测到这两个结构变异(图5)。研究者用相同的方法分析NA12878的5号染色体和12号染色体,即使数据量达到230Gb,也没有任何的支持结构变异的点出现(图6)。
图4 stLFR结构变异检
图5 5Gb的stLFR的数据下5号染色体和12号染色体平衡易位检测(左)及2号染色体染色体内倒位检测(右)
图6 230Gb NA12878样品stLFR的数据下5号染色体和12号染色体平衡易位检测
为了测试stLFR技术是否可以用于从头组装,将stLFR-1和stLFR-2 带有Barcode 信息的Reads 输入10X Genomics 公司开发的Supernova 2.1.1软件中,进行组装。由于该软件的设计只能兼容约4.7 millions种Barcode,而stLFR的barcode 总数高达10 millions,因此该软件不能完全兼容stLFR的数据,最后得到的组装效果可能并不理想。但是文章结果显示stLFR技术依然获得不错的组装效果,stLFR-1和stLFR-2的组装Contig N50和scaffold N50分别可达 ~100kb和~30Mb(图7)。将组装获得的Contig 与人类参考基因组GRCh38绘制比对构建共线性图,显示出样本stLFR-1和stLFR-2与参考基因组有很高的一致性(图8)。使用组装评估软件QUAST对stLFR文库的组装效果进行评估,同时将组装结果与10XGenomics文库和使用Nanopore对NA12878进行组装的结果进行比较,stLFR文库的组装几乎没有组装区域的错误(图9)。
图7 stLFR-1和stLFR-2组装结果
图8 stLFR 文库(NA12878)的数据进行从头组装的结果与参考基因组GRCh38绘制的比对点图
参考文献
Wang O, Chin R, Cheng X, et al. Efficient and uniqueco-barcoding of second-generation sequencing reads from long DNA moleculesenabling cost effective and accurate sequencing, haplotyping, and de novoassembly[J]. Genome research, 2019: gr. 245126.118.