公司简介

company profile

当前位置:首页 > 新闻中心

电话:0523-8651 1020 联系人:

华体会关于三代基因测序,你所需要知道的都在这儿!

编辑日期:2023-11-11 14:00:55作者:

详细介绍

关在三代基因测序,你所需要知道的都于这儿!

一致模子是一个堆叠-结构-一致汇编步伐框架的要害构成部门。跟着三代测序技能的引入,它的主要性于进一步提高。于这项事情中,咱们验证了一个简朴可是高效的一致算法:使用k聚体作为根蒂根基模块以及从位点特异的k聚体图谱可以产出高品质一致序列,它撑持混淆测序这一点使患上成本效率以及计较效率年夜年夜提高。该要领可望显著扩展其于测序纠错以及变异发明方面的运用。一致测序品质也能够经由过程平台特同性、旌旗灯号信息的整合进一步获得提高。

作者: 年夜康健派编纂来历: 中国IDC圈2016-07-19 11:17:25

1、导读:

于年夜部门投资者对于 二代测序 (NGS)尚未弄清技能细节的环境下, 三代测序 (3GS)又火了。

6月17日,医药板块中基因测序相干标的于 三代测序技能得到庞大冲破 的新闻影响上呈现较着涨幅,咱们也接到较多投资者对于相干新闻的配景及不雅点的扣问。为此,咱们联合各方面资料归纳总结了三代基因测序的成长汗青、道理、好坏势,和海内外结构的公司等(也就是说,这是篇三代测序 科普文 )。此外,咱们对于该英文文献部门原文举行了意译,以期可以或许对于最新的算法以及行业技能有粗浅的相识,有不切合原辞意思的地方,望多多海涵。

新闻配景:

中科院昆明植物研究所研究员马占山与美国马里兰年夜学叶承曦玻士于基因测序范畴的互助再次取患上主要冲破。互助团队近日正式发布了一款代号为 Sparc 的软件,针对于第三代基因测序仪硬件过错率高达15%-40%的问题,研发出 基在稀少分化的线性繁杂度算法 ,Sparc软件基在该新算法完成。使用测序深度为30x的Pac Bio 数据, Sparc可以或许到达过错率低在0.5%;使用更具备应战性的Oxford Nanopore数据�����APP,Sparc可以或许到达以及NGS相似的过错率。与现行要领比拟,Sparc对于在一致序列的计较越发正确,而且节约80%的内存以及时间。这一主要冲破为推进基因测序技能迈向三代技能的财产进级提供了又一要害软件技能。

整体不雅点:

咱们以为,以Helicos公司的Heliscope单份子测序仪、Pacific Biosciences公司的SMRT技能以及Oxford Nanopore Technologies公司的纳米孔单份子技能为代表的三代测序技能于颠末了多年成长后已经经慢慢趋在成熟。只管当下该技能另有成本偏高、过错率较高、生物信息学阐发软件不敷富厚的问题,但其于读长、测序速率等方面都具备较着上风,三代测序装备已经实现不变性、小型化,将来跟着正确度晋升、平行测序威力以及酶活性等问题的解决,第三代测序技能是将来成长的主要技能趋向,实现年夜范围贸易化将是年夜势所趋。

详细到Sparc这一算法,按照文献咱们以为其具备帮忙提高测序精度、降低测序成本的可能性(出格是混淆使用NGS以及3GS数据时,或者可以或许较着降低成本),值患上赐与存眷。可是否可以或许实现贸易化援用另有待不雅察(其揭晓的PeerJ期刊以影响因子及投稿掷中率权衡其实不是一线期刊)。而对于在精准医疗板块,咱们以为,虽然精准医疗于高估值以及部门行业事务(如魏则西事务)的影响下体现平平,但也不乏催化剂,2016年3月8日,国度发布《科技部关在发布国度重点研发规划精准医学研究等重点专项2016年度工程申报指南的通知》。思量到年头以来相干标的已经有较年夜跌幅,假如后续市场危害偏好晋升且有连续催化剂(如新的行业计划出台或者者相干企业得到国度科技部精准医学研究重点专项撑持),也是值患上存眷的范畴,同时提议存眷部门前期未彻底发酵的新技能主题(如液体活检),存眷新开源、丽珠集团、润达医疗、迪安诊断、美康生物。

危害提醒:相干标的绝对于估值较高,政策催化及技能改进具备不确定性。

2、三代测序行业配景:

一、基因测序技能成长的汗青

1986年,第一台商用基因测序装备呈现,距离19年,第二代测序装备呈现,从第二代装备到第三代装备只用了5年,申明基因测序装备更新换代速率加速。第一代测序技能,重要基在 Sanger双脱氧终止法的测序道理,联合荧光标志以及毛细管阵列电泳技能来实现测序的主动化,基本要领是链终止或者降解法,人类基因组规划就是基在一代测序技能。第二代测序技能,初期代表平台包孕 Illumina 的 Solexa、LifeTechnologies的Solid、罗氏的454平台等,今朝二代测序装备于通量、正确度上都有了较年夜的提高,同时测序成本也随之年夜幅度降落,成为商用测序的支流。第三代测序技能又称为单份子 DNA 测序,即经由过程现代光学、高份子、纳米技能等手腕来区别碱基旌旗灯号差异的道理,以到达间接读取序列信息的目的,三代测序装备于DNA 序列片断读长上优在二代装备,但于正确度上较二代装备差,将来跟着技能的改良,三代测序装备将更为不变以及成熟。

二、第三代基因测序要领道理

Helicos公司的Heliscope单份子测序仪、Pacific Biosciences公司的SMRT技能以及Oxford Nanopore Technologies公司的纳米孔单份子技能,被以为是第三代测序技能。与前两代技能比拟,他们最年夜的特色是单份子测序,此中,Heliscope技能以及SMRT技能哄骗荧光旌旗灯号举行测序,而纳米孔单份子测序技能哄骗差别碱基孕育发生的电旌旗灯号举行测序。

PacBio SMRT技能运用了边合成边测序的思惟,并以SMRT芯片为测序载体,芯片上有许多小孔,每一个孔中均有DNA聚合酶。测序基来源根基理是: DNA聚合酶以及模板联合,4色荧光标志4 种碱基(便是dNTP),于碱基配对于阶段,差别碱基的插手,会发出差别光,按照光的波长与峰值可判定进入的碱基类型。DNA 聚合酶是实现超长读长的要害之一,读长重要跟酶的活性连结有关,它重要受激光对于其酿成的毁伤所影响。别的,可以经由过程检测相邻两个碱基之间的测序时间,来检测一些碱基润色环境,既假如碱基存于润色,则经由过程聚合酶时的速率会减慢,相邻两峰之间的间隔增年夜,可以经由过程这个来之间检测甲基化等信息。SMRT技能的测序速率很快,每一秒约数个dNTP。可是,同时其测序过错率比力高(这险些是今朝单份子测序技能的通病),到达15%,但幸亏它的堕落是随机的,其实不会像第二代测序技能那样存于测序过错的倾向,于是可以经由过程屡次测序来举行有用的纠错(价钱是反复测序,也就是成本会增长)。

相干技能确凿专业性较强,若文字版难以理解,请移步视频版本:http://www.le.com/ptv/vplay/24994915.html?ch=百度_s

Oxford Nanopore Technologies公司所开发的纳米单份子测序技能与以往的测序技能皆差别,它是基在电旌旗灯号而不是光旌旗灯号的测序技能。该技能的要害之一是,设计了一种非凡的纳米孔(只能容纳单份子经由过程),孔内共价联合有份子接头。当DNA碱基经由过程纳米孔时,它们使电荷发生变迁,从而短暂地影响流过纳米孔的电流强度(每一种碱基所影响的电流变迁幅度是差别的),敏捷的电子装备检测到这些变迁从而鉴定所经由过程的碱基。

假如浏览文字版没法理解的,一样请移步视频版(英文):http://v.youku.com/v_show/id_XNjYzMDUxNzY4.html

三、第三代基因测序技能的上风以及劣势

比拟在二代测序,三代测序具备以下上风:

1)第三代基因测序读长较长,如 Pacific Biosciences 公司的 PACBIO RS II 的平均读长到达 10kb,可以削减生物信息学中的拼接成本,也节约了内存以及计较时间。

2)间接对于原始DNA样本举行测序,从作用道理上防止了 PCR 扩增带来的堕落。

3)拓展了测序技能的运用范畴,二代测序技能年夜部门运用基在DNA,三代测序另有两个运用是二代测序所不具有的:第一个是间接测RNA的序列,RNA的间接测序,将年夜年夜降低体外逆转录孕育发生的体系偏差。第二个是间接测甲基化的DNA序列。现实上DNA聚合酶复制A、T、C、G的速率是纷歧样的。一般的C或者者甲基化的C为模板,DNA聚合酶搁浅的时间差别,按照这个差别的时间,可以判定模板的C是否甲基化。

4)三代测序于ctDNA,单细胞测序中具备很年夜的上风:ctDNA含量很是低,三代测序技能敏捷度高,可以或许对于在1ng如下做到监测;于单细胞级别:二代测序要把DNA提掏出来打坏测序,三代测序间接对于原始DNA测序,细胞裂解原位测序,是三代测序的杀手运用。

同时,第三代基因测序也存于必然的缺陷:

1)整体上单读长的过错率依然偏高,成为限定其贸易运用开展的主要缘故原由;第三代基因测序技能今朝的过错率于15%-40%,极年夜地高在二代测序技能NGS的过错率(低在1%)。不外幸亏三代的过错是彻底随机发生的,可以靠笼罩度来纠错(但这要增长测序成本)。

2)三代测序技能依靠DNA聚合酶的活性。

3)成本较高,二代Illumina的测序成本是每一100万个碱基0.05-0.15美元,三代测序成本是每一100万个碱基0.33-1.00美元。

4)生信阐发软件也不敷富厚。

四、海内外结构三代测序的公司

外洋结构三代测序的重要有Pacific Biosciences、Oxford Nanopore Technologies等公司,2015 年 10 月 27 日,海内公司瀚海基因(Direct Genomics)宣布了基在 Helicos 技能研发的专门用在临床的第三代单份子测序仪 GenoCare 道理样机。中科院北京基因组研究所与海潮基因组科学也于配合研制国产第三代基因测序仪。于测序仪价格方面,PACBIO 2011年的第一台三代测序仪PacBio RS于美国价格80万$,2015年出产的sequel测序仪价格35万$,年夜幅降落。于测序成本方面,估计将来5年内三代测序能到达100美元全基因组测序的价格。

今朝,三代测序装备已经实现不变性、小型化,价格也于不停降落,阐发软件不停富厚,咱们以为跟着正确度晋升、平行测序威力以及酶活性等问题的解决,第三代测序技能是将来成长趋向,实现年夜范围贸易化将是年夜势所趋。

3、原文文献翻译缩减版

原文为《Sparc: a sparsity-based consensus algorithm for long erroneous sequencing reads》,鉴在PeerJ期刊2016年6月8日(影响因子为2.183,投稿掷中率为52.22%,于各种SCI期刊中属在比力平凡的程度)

择要:

Sparc软件经由过程高效的线性繁杂度一致性算法,将方针基因组区域的序列构建k聚体图,帮忙基因组的重新拆卸。权重最年夜的路径近来似在基因组真实序列,经由过程稀少分化引诱的算法对于序列图谱不停从头调解权重,从而获得一致性序列。Sparc 可以或许撑持同时使用NGS以及3GS数据,极年夜改良成本以及计较要领有用性。

使用测序深度为30 的PacBio 数据,Sparc可以或许到达过错率低在0.5%;使用更具备应战性的OxfordNanopore 数据,Sparc可以或许到达以及NGS数据相似的过错率。与现行要领比拟,Sparc对于在一致序列的计较越发正确,而且节约80%的内存以及时间。

媒介:

与前面几代测序技能比拟,三代测序技能于每一个片断可以或许提供5-120kb的读长。然而,按照2012年以及2015年两篇文献的先容,Pac Bio测序过错率约莫为15%(2012年),OxfordNanopore 测序的过错率高达40%(2015年),高的测序过错率为使用3GS测序举行基因组拼接提出了很年夜的应战。

使用三代测序数据举行基因组的重新拆卸,重要需降服三个瓶颈:1)找到反复序列;2)序列对于比;3)序列优化/序列纠错。高效地改正这些长过错序列是个庞大的难题,下图显示这三个重要应战,此中末了一步是这篇文献的重要解决的问题:

一致性算法对于在基因组拼接很是要害,有如下几个缘故原由:1)一致性算法是汇编步伐孕育发生高品质输出成果的须要部门。2)纠错步伐提高了输入序列的正确度。每一个拆卸堆叠序列(或者者称为骨干序列-backbone)作为靶序列,每一次测序成果作为查询序列(query sequences)与靶序列对于比。另外一种景象,每一个长过错测序成果作为靶序列,NGS或者者3GS序列作为查询序列;经由过程同时使用NGS数据以及3GS数据,即混淆拆卸要领,是广泛接纳的拆卸要领。因为NGS小引列的成本更低、正确率更高,是以将两种数据联合可以降低成本,而且减缓整个管线的计较压力。3)末了一个步调占用了年夜部门的计较时间,是以,高效的一致性算法极年夜地加快了基因组拆卸历程。

咱们借助了闻名的de Bruijn/k聚体图,针对于3GS数据设计了一种更简洁的要领。于咱们的sparc算法中,每一个节点是一个k聚体,为节约内存,统一位置的k聚体举行归并,k聚体之间的毗连的患上分代表毗连的靠得住性,是以,终极患上分最高的路径是近来似在一致序列。Sparc可以于低内存的前提下提供极好的成果,而不消使用其他作图简化技能。因为技能的简洁性,此算法比拟较支流的3GS测序工程PBdagcon,速率加速五倍,内存也节约五倍。此外,因为支流NGS测序数据的正确性( 99%)更高,以是哄骗成本更低的NGS取代部门高成本的3GS数据是值患上的,于混淆景象下,Sparc可以或许提供高品质的成果。

试验要领:

一、搭建原始图

起首搭建一个原始的k聚体图,称为backbone(骨架),即靶序列,k聚体是位置特异的,差别的位置彼此自力。将k聚体分配到每一个位置占用年夜量内存,出格是鄙人一个试验步调。为了节约内存,咱们构建一个稀少k聚体图,于每一g个碱基存储一个k聚体,从而削减高达1/g的内存耗损。同时咱们记载k聚体节点之间的毗连,毗连的患上分代表响应路径的置信度。于原始图中,毗连的多样性是1,是以毗连的患上分是1。

二、与靶序列对于比,成立全景图

(i) 假如查询序列显示新的路径,咱们成立一个分支,分配新的k聚体节点以及毗连。以下图3b中显示,当咱们将Seq1的末了六个碱基与靶序列比照时,两个新的毗连ACC以及AAA 的繁杂性是1,分配一个k聚体节点。(ii) 假如查询序列以及现有序列完善契合,咱们不分配新的节点,而是增长毗连的患上分,咱们也能够从下图3b中看出,当咱们比照Seq1序列的前五个碱基时,节点AC, GG以及毗连 TGG 以及原靶序列重合,而且毗连患上分增长1分。当咱们以及现有图比照Seq2的末了六个碱基时,节点以及毗连与Seq1重合,毗连患上分增长1分。这个构图历程以及de Bruijn做图要领相似,可是咱们区别了节点和他们的位置。

三、调解图的权重患上分

经由过程上一步调,患上分最高的路径具备最高的置信度,也就是最靠近在真正的序列。然而,间接使用这个成果可能致使过错,一个简朴的例子是长的插入过错,为了不这类环境的发生,咱们将毗连患上分减去一部门,减去的这部门取决在笼罩率。同时引入参数b增长靠得住毗连的权重(b=5~10)。

四、输出成果

试验成果:

Sparc已经经于多种数据集长进行了测试,咱们的试验是基在对于PacBio数据集以及OxfordNanopore数据集的测试。Sparc是一个碱基程度的一致性算法,公允起见,咱们用咱们的步伐以及最相似的工程PBdagcon(重要用于HGAP以及MHAP管线用来改正序列)做了对于比。

两个步伐都输入同样的数据,获得拆卸骨架以及用DBG2OLC网络每个骨架有联系关系的序列。Blasr用来序列对于比,末了的一致过错率经由过程MUMmer3里的ednadiff方程来计较。所有的试验都于一个用AMD Opteron2425HE CPUs的事情站(800MHz)。于一些试验中,咱们提供二代以及三代测序数据,于这些混淆的组合中,50XIllumina汇编堆叠群也包罗于内,界限权重增加b=5~10。测序深度为 50X的Illumina提供中等的笼罩度从而答应现成的基在deBruijn图谱的汇编步伐来汇编高品质堆叠群。

于PacBio数据集,咱们设置k=1,g=1,并运转一致算法四轮。每个碱基的过错率于1/2/4轮次后于表1以及2中别离陈诉为ERR1,ERR2以及ERR4。于第一个试验中,咱们使用年夜肠杆菌PacBio数据集以及用差别的笼罩度测试其正确性。DBG2OLC用10X/30X的测序深度获得的最长骨架别离是1.3Mb以及4.6Mb。一个主要的汇编情境就是当咱们既有二代又有三代测序数据时,咱们发明Sparc可以实现混淆汇编,并且使它们都有很高的计较效率以及很好的成本效率。两轮以后,Sparc于混淆数据处置惩罚方面只用10X的测序深度就能够到达0.09%的过错率,比拟PBdagcon的0.64%的过错率是一个较着的奔腾。当用30X的测序深度时,成果正如预期同样更好(0.02%)。算法运转两轮以上成果将越发改良,表1以及表2中有其各自运转两轮的时间。

Sparc对于年夜量数据的测序体现更好,咱们展示了Sparc以及PBdagcon于一个更年夜的20X的PacBio A.thaliana 数据集 (基因组巨细:120 Mbp)。DBG2OLC获得的最长骨架是7.1Mbp。Sparc跑完用了PBdagcon五分之一的时间以及内存,但却孕育发生了更切确的成果。这里咱们用一个由MHAP获得的纯PacBio全基因用作参考系来计较过错率。

于Oxford Nanopore数据集中,思量到较高的误码率咱们设置k=2,g=2,运转一致算法四轮。每个碱基的过错率于1/2/4轮次后于表3中被陈诉为ERR1/2/4。第1、二举动仅使用Oxford Nanopore(ON)的数据,第3、四举动使用混淆数据的成果。

纵然原始错码率可能高达40%,咱们步伐的测试错码率都低在0.5%。与此相反,非混淆数据获得的成果则不那末有效。于本次测试中最长的骨架是4.6 MBP。两个步伐运转四轮的时间陈诉于表3中。

Sparc对于差别参数相对于不是很敏感,是以纵然对于初用者来讲也很轻易使用。咱们于第二轮变换了参数,只用PacBio数据。表4中陈诉了差别k、g相对于应的内存、时间以及成果品质。使用稍年夜尺寸的k聚领会增长每一个碱基测序的正确性,这个效应答多倍基因组更较着。可是,这也增长了内存的使用,由于支链节点也响应孕育发生。设置一个年夜一点的g可以帮忙咱们削减内存的耗损,差别的权重增长的对于二代测序数据于混淆一致数据中的影响可以于表5中患上见。经验患上出,于不影响正确性的条件下,这个参数被设置为b=5~15比力保险。实践中,咱们将它设为一个比力低的值(b=5~10),从而更好地使用三代测序数据。

试验结论:

一致模子是一个堆叠-结构-一致汇编步伐框架的要害构成部门。跟着三代测序技能的引入,它的主要性于进一步提高。于这项事情中,咱们验证了一个简朴可是高效的一致算法:使用k聚体作为根蒂根基模块以及从位点特异的k聚体图谱可以产出高品质一致序列,它撑持混淆测序这一点使患上成本效率以及计较效率年夜年夜提高。该要领可望显著扩展其于测序纠错以及变异发明方面的运用。一致测序品质也能够经由过程平台特同性、旌旗灯号信息的整合进一步获得提高。

存眷年夜康健Pai官方微信:djkpai咱们将按期推送医健科技财产最新资讯

最新快讯医疗信息化 | 降低电子康健信息保险危害,美国卫生部对于医疗机构实行信息封锁!

20小时前

/华体会
联系我们

电话:0523-8651 1020

邮箱:weiwei.lu@

地址:泰州市中国医药城口泰路西侧、陆家路东侧G60幢50号一、二层东侧

版权所有:江苏华体会医疗科技有限公司 备案号:苏ICP备18038691号-1 免责声明