- 全基因组de novo测序也叫从头测序,是指不需要任何参考序列,用生物信息学分析方法将测得到的序列进行组装,从而获得该物种的全基因组序列图谱,为后续的基因挖掘、功能验证提供序列信息;为分子育种和合成生物学研究奠定基础。
使用Nanopore长序列(N50 达到30Kb,最长序列4Mb以上)组装后使用二代数据进行纠错,得到高质量的Contig(N50大于1Mb,部分可到10Mb以上)。结合Hi-C把组装的Contig挂载到染色体,获得染色体水平的全基因组序列图谱,注释后通过其他分析揭示研究的科学问题。
-
常见问题
(1)基因组de novo测序是什么?
基因组de novo测序也叫基因组从头测序,主要针对未知物种的基因组序列以及需要更新的基因组,通过构建基因组DNA文库,并进行测序。然后通过生物信息学的方法对测序所得到的数据进行拼接、组装和注释,从而获得该物种完整的基因组序列图谱。
(2)Nanopore测序与二代及三代PacBio的优势有哪些?
a、Nanopore测序中不涉及聚合酶合成反应,所以不存在酶的失活问题。
b、超长读长,在DNA测序中,其平均读长能够达到几十到上百Kb,最长读长能达到2Mb以上,很好得解决高重复、高杂合基因组的组装难题(二代测序难以解决)。
c、Nanopore测序可以直接检测到甲基化修饰信息,对于表观遗传学的研究有重要意义。
d、通量高
(3)基因组的样品选择?
基因组精细图的样品要尽量与调研图样品为同一个体,植物样品最好选择无污染的组培苗、嫩叶等,而动物样品最好选择全血或者内脏组织。
(4)Hi-C在辅助基因组组装时有什么作用?
Hi-C最主要的作用是将零散的基因组序列锚定到染色体上(这一点类似遗传图谱);还可以对组装的基因组进行纠错处理;在某种程度上进一步提升Contig N50。
(5)Hi-C技术与遗传图谱的差异?
Hi-C应用单个个体就可以完成染色体构建,挂载染色体效率高达90%以上,但不能进行QTL定位。
(6)为什么一定要做Survey?
Survey是评估基因组的有效手段,对于没有参考基因组的物种,在启动de novo项目之前,对基因组特征评估是十分必要的,基因组大小及复杂状况直接影响到项目价格,周期以及后续的组装策略等。
(7)Survey评估和流式细胞仪评估有什么区别?
两者都可以对基因组的大小进行评估,Survey评估中的K-mer分析是从数学角度上进行分析的,得到的信息更为全面和准确。而流式则是通过实验的手段,主要通过已知内参物种基因组大小来评估被测物种的基因组大小。由于内参选择不同,实验预估基因组大小与实际会有一些偏差。
(8)做了基因组Survey是否就一定不用做流式了呢?
不是。我们一般建议老师在做Survey之前先做一下流式对基因组大小有个初步的预估。原因如下:K-mer分析中,我们把K-mer分布最多的峰为主峰,主峰前的1/2的峰称为杂合峰,把主峰后2倍的位置的峰称为重复峰。这时我们需要流式的结果来对我们的判断进行验证。根据不同峰计算的基因组大小不同,哪个和流式结果更加吻合哪个即是主峰。
(9)K-mer分析时,为何选的K-mer长度不一样?
一般来说,用来估计基因组大小的K-mer我们选取17-mer,其原因是ATCG四种不通过的碱基组成的长度为17的核苷酸片段有417~17G,足以覆盖一般的正常基因组;如果选择15的话,则只有1G的可能。对于正常基因组可能覆盖度不够,导致估计不准确,当然对于较大基因组>15G,我们会尝试采用19-mer进行评估。
由于Reads上存在错误碱基,K-mer并非越大越好,若K-mer选择的越大,则包含这个错误位点的K-mer的个数就会越多。
另外为了避免回文序列,K-mer分析选择K长度均为奇数。而对于高重复的重复,我们通常会选择一些长度较长的K-mer,这是因为较大的K-mer能够跨过一些高重复区域,对于组装具有较好的结果。
(10)HiC是什么,有何技术优势?
Hi-C是一种分析染色体空间构象的高通量测序技术,研究染色体三维空间结构、染色体之间相互作用以及基因表达的空间调控机制,深化了对组织发育和癌症发生等过程的认识,并且可以辅助基因组组装到染色体水平。
HiC技术有如下优势:
1.Hi-C无需群体,单一个体就能实现染色体定位;
2.标记密度更大,序列定位更完整;
3.可以对已组装的基因组进行纠错。
-
-
Copyright © 2018 武汉龙8总区科技有限公司 . All Rights Reserved. Designed by 鄂ICP备2021008976号-2
友情链接
西安新能源 | 环氧地坪 | 四川药业 |