棉花基因组重测序案例分享
标题:
Resequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits
期刊:
Nature Geneticse (IF = 25.45)
研究背景:
棉花是世界上最重要的经济作物之一,同时也是研究植物多倍化的重要资源。Gossypium arboreum和Gossypium herbaceum的祖先为现代栽培异源四倍体棉花提供了A亚基因组。G. arboreum可能是在马达加斯加或者印度河流域被驯化,随后扩散到非洲和亚洲其他区域。其最初传入中国在大约1000年前,作为一种观赏植物。虽然棉花育种工作者已经构建了各种基于RFLP5和SSR的遗传图谱,但尚未鉴定G. arboreum和G. herbaceum优良农艺经济性状相关的关键基因。
研究材料:
基因组测序材料:二倍体G. arboreum栽培品种cultivar Shixiya1(SXY1)
自然群体材料选择:243份棉花,包含230份G. arboreum和13份G. herbaceum,测序深度6×;
遗传群体材料选择:亲本(GA0146和GA0149),测序深度20×;2个混池(F2群体,有绒型和无绒型各20个子代),测序深度30×;
群体材料表型调查:在230份G. arboreum中选择了215份表型稳定的材料,大部分性状选自多年多点的表型数据进行调查。
主要研究结果:
G. arboreum基因组组装更新:三代+Hi-C:PacBio reads(77.6×);有效Hi-C reads(>20×);三代组装结果:共计获得了142.54 Gb 原始三代测序数据,组装1.71 Gb基因组,Contig N50=1.1 Mb,最长的Contig为12.37 Mb。利用Hi-C技术将组装的1573 Mb的数据定位到13条染色体上,与已经发表的基因组相比,当Hi-C数据比对到更新的基因组后,对角线外的不一致性明显减少。与异源四倍体陆地棉的AADD型的共线性分析,发现更新后的基因组的共线性更高。
表1
G. arboreum原基因组与更新后基因组的组装指标比较
基于243份棉花重测序数据进行群体进化分析。以G. raimondii基因组作为外类群,使用72419个SNP位点构建NJ树(图1a),G. herbaceum和G. arboreum被分到两个不同的分枝。G. arboreum分枝继续被分成中国南部SC,长江流域YZR和黄河流域YER三个组分,其表现出一定的地理分化模式,同时PCA研究也表现出同样的结果(图1c),表明这两个物种是由不同的野生祖先独立驯化的。表型计算统计发现,与YZR和YER的材料相比,SC材料的表型相对匮乏。核酸多态性检测发现,SC(π=0.211×10-3)比YZR(π=0.197×10-3)和YER(π=0.199×10-3)的核苷酸多态性高,这表明了G. arboreum最早在中国南部种植,并进一步扩展到长江和黄河流域。连锁不平衡分析显示,G. arboreum的LD衰减距离约为105.5 kb(r2=0.40),G. herbaceum的衰减距离约为145.5 kb(r2=0.39)(图1d)。同时,大约有23.9%的G. arboreum 和22.9%的G. herbaceum的等位基因与G. raimondii的基因组相一致(图1e),暗示了G. arboreum 和G. herbaceum同时开始分化。
图1
G. arboreum群体进化分析及LD分析
人工选择在作物驯化和迁移中扮演着重要的角色。基于FST选择性清除分析鉴定出了分别覆盖到3,162,2,879和3,308个基因上的59,53和51个显著遗传分化的区域(SC vs. YZR, SC vs. YER, YZR vs. YER)(图2 f)。
基于11个重要性状进行全基因组关联分析,在98个显著关联的信号中,其中25信号个来自基因区,73个信号来自非编码区。大部分农艺性状的GWAS关联信号中显示地理差异(图2 g),如交配分支数,开花期,铃重和抗病性这些性状定位在保守的基因区。因此推断成熟度,产量和抗病性等性状长期受到人为/或自然地理选择。
图2 选择性清除分析及GWAS
通过GWAS关联分析,在11号染色体上的GaKASIII locus(Ga11G3851)的第8个外显子区获得了1个显著的SNP位点,该基因编码3-Oxoacyl-[acyl-carrier-protein ACP] synthase III。KASIII基因编码的这一关键酶确定种子中棕榈酸(C16:0)和棕榈油酸(C16:1)的组成(图3ab)。GaKASIII基因单倍型B(TGT,Cys)主要出现在低含油量种质中,而单倍型A(CGT,Arg)主要出现在在高含油量种质中(图3cdef)。GaKASIII基因在开花后(DPA)的30天表达量最高,这是种子油量积累的关键时期,在单倍型种质A中,C16:0和C16:1含量以显著的速率累积(图3h);蛋白质结构模型预测显示,半胱氨酸/精氨酸残基位于α螺旋处,该位点靠近酶活性位点,同时是辅酶A(CoA)结合位点(图3g)。
图3
GaKASIII调节棉籽油含量机理
通过GWAS,进行G. arboreum枯萎病FOV抗性分析,发现在11号染色体上获得了强的关联信号(图4a)。关联到的SNP簇与拟南芥GSTF9基因为直系同源基因,其编码与植物对生物和非生物胁迫响应的谷胱甘肽S转移酶(glutathione-S-transferases)。携带疾病易感等位基因‘T’的种质主要在SC群体中发现,所有YER群体材料携带耐病等位基因‘C’(图4 c)。qRT–PCR 分析,GSTF9基因仅在FOV接种的棉花幼苗的耐受系中上调表达(图4d)。与空载体棉花系(TRV::00)相比,GSTF9基因沉默棉花品系(TRV::GSTF9)对于FOV的接种更加敏感(图4ef)。此外,TRV::GSTF9植株系与TRV::00植株系相比,TRV :: GSTF9植株系中的真菌DNA的量显著高于TRV::00植株系,且GST催化活性显着低于TRV::00植株系(图4gh),表明GaGSTF9基因可能是G. arboreum枯萎病FOV抗性的靶标。
图4 经过地理隔离的遗传位点对枯萎病具有抗性
基于G. arboreum种质中的158份有绒毛和57份无绒毛材料进行GWAS关联分析,在8号染色体上获得了较强的关联信号(图5 a-b)。QTL分析也同样定位到8号染色体上(图5c)。通过有绒毛品系(GA0146)和无绒毛品系(GA0149)杂交获得的F2代显示了有绒毛和无绒毛的表型分离比为1:3(图5d),说明了棉绒的生长是由单基因座控制。研究中放大了QTL和GWAS的重叠区,鉴定了凯氏带膜蛋白基因在棉绒细胞的发育过程中可能发挥功能性的作用。
图5 棉绒GWAS和QTL分析
研究意义:
本研究表明地理隔离已经影响了SC,YZR和YER群体的遗传基础,同时影响了中国G. arboreum棉的抗病性和产量性状的形成与分布。
参考文献:
1. Adhikari K, Mendoza-Revilla J, Sohail A, et al. A GWAS in Latin Americans highlights the convergent evolution of lighter skin pigmentation in Eurasia. Nature communications, 2019, 10(1): 1-16.
2. Du X, Huang G, He S, et al. Resequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits. Nature genetics, 2018, 50(6): 796-802.
3. Kaya H B, Akdemir D, Lozano R, et al. Genome wide association study of 5 agronomic traits in olive (Olea europaea L.). Scientific Reports, 2019, 9(1): 1-14.
4. Styrkarsdottir U, Stefansson O A, Gunnarsdottir K, et al. GWAS of bone size yields twelve loci that also affect height, BMD, osteoarthritis or fractures. Nature communications, 2019, 10(1): 1-13.
5. Tamisier L, Szadkowski M, Nemouchi G, et al. Genome‐wide association mapping of QTLs implied in potato virus Y population sizes in pepper: evidence for widespread resistance QTL pyramiding. Molecular plant pathology, 2020, 21(1): 3-16.
6. Wu D, Liang Z, Yan T, et al. Whole-genome resequencing of a worldwide collection of rapeseed accessions reveals the genetic basis of ecotype divergence. Molecular plant, 2019, 12(1): 30-43.