国自然热点|图形泛基因组构建方法
泛基因组(Pan-genome)即某一群体全部基因的总称,包括核心基因(所有样本中均存在的基因)、非必需基因(部分样本中存在的基因),以及特有基因(仅在某个样本中存在的基因)。
大量的遗传变异,特别是大的结构变异,是泛基因组研究核心。简单的线性泛基因组无法直观地描述这些结构变异,因此基于图的泛基因组成为目前泛基因组研究的主流。这些泛基因组以节点和路径的形式存储序列和结构变异信息,以更直观的方式存储和展示物种的变异信息。基于图的泛基因组的关键作用是扩展线性参考基因组的坐标系统,以适应更多的遗传多样性区域。
前两期泛基因组系列推文中,小编对 以及 进行了详细整理。在本期,小编将针对图形泛基因组的构建方式进行一个简单总结。
(一)
基于参考基因组和变异信息的构建方式
构建软件:vg
基因组之间的比对软件:minimap2、MUMmer、AnchorWave
基因组比对后变异分析软件:SyRI、SVMU、Assemblytics、MUM&CO、SVIM-asm
首先,通过基因组组装数据与参考基因组进行比对,获得变异信息(vcf),再结合vg软件构建泛基因组。该方法是目前比较主流的构建方式,可以更加直观的显示物种之间的变异信息,变异类型更加全面。
需要注意的是,基于基因组序列的比对,对基因组的相似性要求比较高,比较适合种内比对及泛基因组构建;而种间水平的比对,如果一些重复区域相似度较低,难以对齐序列,就会导致无法正常检测到变异。而软件AnchorWave,先针对编码区进行定位对齐(基因序列中负责编码重要蛋白质和调控元件的区域通常比重复序列更保守),在对齐的基础上再去进行变异分析,避免比对差异带来的复杂性,更加适合种间水平的基因组比较;
此外,以上多种分析结果可以通过软件SURVIVOR合并后得到一个聚合的变异分析结果vcf文件,在vg软件中输入该文件和参考基因组序列文件,即可构建出泛基因组文件(vg,gfa等格式);
使用以上方法进行泛基因组构建案例:
01
番茄泛基因组(Li et al., 2023)
标题:Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species
期刊:Nature Genetics
泛基因组构建方法:MUMmer+ SVMU和 minimap2+syri查找变异, SURVIVOR合并变异信息,最后合并的vcf文件使用vg构建泛基因组。
02
水稻超级泛基因组(Shang et al., 2022)
标题:A super pan-genomic landscape of rice
期刊:Cell Research
泛基因组构建方法:minimap2、NGMLR+Sniffles比对查找变异,变异结果用vg构建泛基因组。
03
茶树泛基因组(Chen et al., 2023)
标题:Gene mining and genomics-assisted breeding empowered by the pangenome of tea plant Camellia sinensis
期刊:Nature Plants
泛基因组构建方式:NGMLR+SVIM 、cuteSV用于原始PB数据比对鉴定变异,NUCmer+MUM&CO用于基因组比对参考基因组鉴定变异,SURVIVOR合并变异内容,最后合并的vcf文件使用vg构建泛基因组。
04
辣椒泛基因组(Liu et al., 2023)
标题:Genomes of cultivated and wild Capsicum species provide insights into pepper domestication and population differentiation
期刊:Nature Communications
泛基因组构建方法:minimap2、MUMmer+Assemblytics、bcftools比对查找变异,变异结果用vg构建泛基因组。
(二)
基于参考基因组直接构建方式
构建软件:Minigraph、Minigraph-Cactus
该方法同样也需要选择一个物种基因组作为参考基因组,但软件可直接输入全部需要构建泛基因组的基因组,无需额外的变异分析直接生成泛基因组文件。
使用以上方法进行泛基因组构建案例
01
人类泛基因组(hickey et al.,2023)
标题:Pangenome graph construction from genome alignments with Minigraph-Cactus
期刊:Nature biotechnology
泛基因组构建方法:Minigraph-Cactus
(三)
无参考基因组的泛基因组构建方式
构建软件:pggb、Progressive Cactus
无需选择任何基因组作为参考基因组,直接输入全部基因组得到泛基因组;方法一:pggb,主要使用wfmash、seqwish和smoothxg对成对序列进行比对,并构建基于图形的泛基因组,最后进行归一化以完成图形的构建;方法二,Progressive Cactus ,其核心原理是构建一个称为 “cactus graph” 的结构,该结构能够捕获多个基因组之间的进化关系和序列相似性;两种构建方式类似,都是基于两两比对情况最终存储在泛基因组文件。同时,pggb和Progressive Cactus构建方式对于大型的基因组构建泛基因组,都推荐单条染色体进行构建。
使用以上方法进行泛基因组构建案例:
01
葡萄泛基因组(Cochetel et al., 2023)
标题:A super-pangenome of the North American wild grape species
期刊:Genome Biology
泛基因组构建方法:pggb
02
鸟类泛基因组(Feng et al., 2020)
标题:Dense sampling of bird diversity increases power of comparative genomic
期刊:Nature
泛基因组构建方法:Progressive Cactus
本文涉及的软件及泛基因组参考文献