星毛唐松草叶绿体基因组的测序及其密码子偏好性分析

侯哲, 娄晓鸣, 李昂, 黄长兵

侯哲, 娄晓鸣, 李昂, 等. 星毛唐松草叶绿体基因组的测序及其密码子偏好性分析[J]. 西南林业大学学报(自然科学), 2023, 43(5): 47–56 . DOI: 10.11929/j.swfu.202205026
引用本文: 侯哲, 娄晓鸣, 李昂, 等. 星毛唐松草叶绿体基因组的测序及其密码子偏好性分析[J]. 西南林业大学学报(自然科学), 2023, 43(5): 47–56 . DOI: 10.11929/j.swfu.202205026
Hou Zhe, Lou Xiaoming, Li Ang, Huang Changbing. Characteristics of Thalictrum cirrhosum Chloroplast Genome and Its Analysis on Codon Usage Bias[J]. Journal of Southwest Forestry University, 2023, 43(5): 47-56. DOI: 10.11929/j.swfu.202205026
Citation: Hou Zhe, Lou Xiaoming, Li Ang, Huang Changbing. Characteristics of Thalictrum cirrhosum Chloroplast Genome and Its Analysis on Codon Usage Bias[J]. Journal of Southwest Forestry University, 2023, 43(5): 47-56. DOI: 10.11929/j.swfu.202205026

星毛唐松草叶绿体基因组的测序及其密码子偏好性分析

基金项目: 江苏省特色花卉工程中心项目(苏发改高技发[2020]1460号)资助;江苏省省级作物种质资源库(球宿根花卉)项目(JS−ZW−K05)资助;四川省自然科学基金项目(2022NSFSC1141)资助
详细信息
    作者简介:

    侯哲(1991—),男,博士,讲师。研究方向:园林植物抗逆性分子机制。Email: houzhedota@163.com

    通讯作者:

    黄长兵(1979—),男,硕士,副研究员。研究方向:观赏植物新品种选育与抗性。Email: cbhuang@szai.edu.cn

  • 中图分类号: Q343.1

Characteristics of Thalictrum cirrhosum Chloroplast Genome and Its Analysis on Codon Usage Bias

  • 摘要: 通过全基因组重测序数据对星毛唐松草的叶绿体基因组进行组装,并对其密码子偏好性进行分析。结果表明:星毛唐松草的叶绿体基因组全长为155969 bp,具有非常典型的四分体结构;密码子偏好性分析表明,筛选的48条基因序列中,GC1、GC2、GC3的平均含量分别为47.97,39.99,30.07,表现出显著的差异;有效密码子数(ENC)与GC1和GC2的相关性不显著,而与GC3显著相关;中性绘图分析表明GC3与GC12的相关性显著,且密码子的偏好性受自然选择的影响;ENC−plot及ENC比值频数分布结果表明,大多数基因的ENC值低于预期值,仅有10个基因受到突变的影响,其他基因则主要受到自然选择的影响;同义密码子相对使用度(RSCU)分析表明,18个最优密码子均以A和U结尾。该研究为星毛唐松草叶绿体基因工程的开展奠定了基础,为其遗传多样性、遗传结构及群体遗传学的研究提供了参考信息。
    Abstract: This study used whole-genome resequencing data to assemble the chloroplast genome(chloroplast, cp) of T. cirrhosum and to analyse its phylogenetic relationships within the genus Thalictrum. The results showed that the chloroplast genome of T. cirrhosum is 155 969 bp in length, with a very typical quadripartite structure; the codon preference analysis showed that the average contents of GC1, GC2 and GC3 were 47.97, 39.99 and 30.07, respectively, among the 48 gene sequences screened; the correlation of ENC values with GC1 and GC2 was not significant, while the correlation coefficient with GC3 was significantly correlated; the neutral mapping analysis shows significant correlation between GC3 and GC12 and that codon preference is influenced by natural selection; the ENC−plot and ENC ratio frequency distribution results show that most genes have ENC values lower than expected, with only 10 genes are affected by mutations, while the remaining genes are mainly affected by natural selection; the RSCU analysis showed that 18 optimal codons have A and U endings. This study lays the foundation for the genetic engineering of the chloroplasts ofT. cirrhosum and provides reference information for the study of its genetic diversity, genetic structure and population genetics.
  • 密码子使用偏好性是植物基因组的基本特征,为理解物种进化提供了重要的信息[1]。每种氨基酸由1~6个密码子编码,而同义密码子是编码同一氨基酸的密码子,由于基因突变和自然选择的存在,在不同物种翻译过程中,密码子的使用频率中出现偏爱某些密码子的现象,称为密码子的偏好性[2-3]。影响密码子偏好性的因素有很多种,如漂变、突变、基因表达水平、自然选择及转运核糖核酸(tRNA)丰度等[4-6]。相对同义密码子使用率(RSCU)是指某一密码子的实际使用频率与没有密码子使用偏差时的预期频率的比值。密码子偏好是不同物种的普遍现象,虽然一定时间间隔内的偏好是不同的,但它对于物种基因组水平的研究具有重要意义[7]

    叶绿体是绿色植物特有的细胞器,是植物进行光合作用的所在,一般认为高等植物的叶绿体具有一套自己独立的遗传物质,即叶绿体基因组[8]。叶绿体基因组的长度一般在120 ~ 160 kb,包含110 ~ 130个基因[9],且编码区的基因序列相对保守,相比其他质体基因组来说,叶绿体基因组的进化速率较低,结构相对来说也比较稳定,因此近些年来,常被用于植物的群体进化、群体遗传学和系统发育关系研究[10]。植物叶绿体基因组密码子偏好性的研究具有十分重要的意义:一方面,如果选取高契合度的叶绿体基因,可以帮助目的基因快速转化,提高转化效率及实现目的基因的高表达;另一方面,有助于功能基因的碱基组成,从而更好地确定目的基因的功能[11]

    星毛唐松草(Thalictrum cirrhosum)是毛茛科(Ranunculaceae)唐松草属草本植物,一般分布于我国云南与四川一带。唐松草属(Thalictrum)植物在全世界大约有150种,在中国有76种,其中约30种由于富含生物碱、三萜、酚类及黄酮等具有药理活性的化合物,因而具有非常高的药用价值,根和茎常被用于治疗流感、癌症、高血压、细菌感染及结膜炎等症状[12]。研究发现,星毛唐松草也富含多种药理活性的化学物质,如16种不同的生物碱,2种黄酮和苷类物质,3种萜类,因而也具有很高的药用价值。目前关于星毛唐松草的研究内容较少,且多是对其化学成分的研究[13]。迄今为止,有关星毛唐松草叶绿体基因组方面的研究还未见报道,对其密码子偏好性的研究也比较少。鉴于此,本研究在利用基因组重测序数据组装、注释了星毛唐松草叶绿体基因组的基础上,对其密码子偏好性进行系统研究,筛选出最优密码子,为后续的叶绿体基因工程、种质资源保护及系统发育研究等提供参考。

    从2 ~ 3株星毛唐松草植物上采集新鲜的叶片,保存于液氮中直到DNA的提取,样本采集地点位于云南省漾濞县大平地山(25°40′11.71″N,99°57′29.30″E)。使用Trelief TM植物基因组DNA试剂盒(擎科生物技术有限公司,北京),从新鲜的叶片中提取星毛唐松草的总基因组DNA。经过质量检测并纯化后,DNA片段化后构建400 bp 的文库,之后进行高通量测序(Illumina Hiseq X−Ten);用fastp软件[14]对测序原始数据进行过滤,以粘唐松草(Thalictrum viscosum)叶绿体基因组(NC058831)为参考基因组,使用软件Bowtie2 v.2.3.4.3[15]对星毛唐松草的数据进行比对,然后通过软件NOVOPlasty v4.2.1[16]将比对后的数据进行组装。为确保叶绿体基因组组装的准确性,原始测序读数被重新比对到星毛唐松草的叶绿体基因组上,以确保最后得到的是1条无间隙的连续序列。最终组装的叶绿体基因组用GeSeq[17]和tRNAscan[18]进行注释,然后用Geneious 9.1.8[19]进行人工调整和确认。最后,通过在线工具( https://irscope.shinyapps.io/Chloroplot/)绘制星毛唐松草的叶绿体全基因组图谱。本研究结果的序列数据在National Center for Biotechnology Information(NCBI)的GenBank( https://www.ncbi.nlm.nih.gov/)上公开发表,登录号为OL711693。相关的生物项目、SRA和生物样本编号分别为PRJNA803587、SRR17888522和SAMN25656791。从得到的87条蛋白编码基因中,删除序列过短(<300 bp)且重复的序列,并严格删除不以起始密码子ATG开始,不以终止密码子结尾的基因序列,最终共筛选到48条基因序列用于后续的密码子偏好性分析。

    通过 CodonW 1.4.2 软件( http://codonw. sourceforge.Net)分析48条序列的密码子偏好参数:1)密码子的出现次数N;2)有效密码子数(ENC);3)相对同义密码子使用度(RSCU)。接着计算出RSCU值,并将RSCU>1的密码子过滤到高频密码子中。然后使用EMBOSS( https://www.bioinformatics.nl/emboss-explorer/)在线网站分析星毛唐松草叶绿体基因组中各个密码子的GC1、GC2、GC3和 GCall(GC1、GC2、GC3分别为密码子第1、2、3位的GC含量,GCall为密码子总GC含量),最后,用SPSS在线软件( https://www.spssau.com/102000000)对各个参数进行相关性分析。并对星毛唐松草的3个亲缘种叶绿体基因组中的蛋白质编码基因的密码子使用模式进行评估,然后使用Tbtools[20]软件对密码子的使用度做热图进行分析,以确定密码子的偏好性。

    通过中性绘图分析,可以对密码子的使用偏好性的影响因素进行分析。首先以 GC3 为 横坐标,以GC12[GC12=(GC1 + GC2)/2]为纵坐标,用Excel绘制二维散点图并对两者进行相关性分析。如果图中分散的点沿对角线分布集中,则回归系数接近1,得出的结果如下:GC12 和 GC3的差异基本相同,并且不同位置的碱基组成没有显著差异,说明该基因受到突变的影响较大。反之,如果图中的分散点不沿对角线分布,则回归系数趋于0,则GC12 和 GC3 之间存在较大差异,说明该基因受到选择压力的影响较大[21]

    ENC既可用于直观反映基因密码子使用模式,也可以用于判断突变压力或选择压力对密码子偏好性的影响,其理论范围为20~61。当数值靠近20时,表明密码子受突变的影响越大,反之表示密码子受到选择的影响越大[22]。以星毛唐松草叶绿体基因组48条序列中的ENC为纵坐标, GC3 含量为横坐标,用R语言绘制二维散点图,构建ENC 值的期望曲线,并结合频率对差异进行一定程度的量化分析。

    为得出星毛唐松草叶绿体基因组的最优密码子,首先需筛选出其高频率及高表达密码子并对其进行分析,进一步将 RSCU值>1 的密码子定义为高频密码子,且把筛选出的 48 条星毛唐松草CDS 序列的 ENC 值从小到大排序,然后各取最低和最高的5组基因建立1个高低表达库,并用高、低两组相减,得到ΔRSCU值,将ΔRSCU ≥ 0.08的密码子作为高表达密码子[23],将同时表现为高频及高表达的密码子筛选出来作为最优密码子。

    星毛唐松草叶绿体全基因组序列全长为155 969 bp,LSC、SSC和IR区域的长度分别为85 324、17 657 bp和26 494 bp(图1)。与大多数被子植物的叶绿体基因组一致,星毛唐松草的叶绿体基因组呈典型的四分体结构,包含1个大的单拷贝区(LSC),1个小的单拷贝区(SSC)及两个反向重复区(IRa 和IRb),基因组注释结果表明,星毛唐松草叶绿体基因组共包含133个基因,包括86个蛋白编码基因,37个tRNA基因,8个rRNA基因和2个假基因(图1),其中LSC区域所包含的基因最多(81个),SSC区域包含的基因最少(11个),IR区共有34个基因。

    图  1  星毛唐松草叶绿体全基因组图谱
    Figure  1.  Circle gene map of the T. cirrhosum cp genome

    为了研究星毛唐松草叶绿体基因组中密码子使用偏差的程度,计算了48个蛋白编码基因的ENC值,其范围为39.85 ~ 59.17,平均值为49.07,其中psba基因的ENC值最小,而ndhJ基因的ENC值最大,显示出了不同基因之间密码子的偏好趋势(表1)。同时,不同基因的GC1、GC2、GC3含量存在明显的差异,各基因总体的GC含量为39.40,而GC1、GC2、GC3的平均含量分别为47.97、39.99、30.07(表1)。其中,第1位密码子的GC含量最大,第3位密码子的GC含量最小。而第3位密码子的GC含量差异最明显,GC3也是评估密码子偏好性的重要指标。

    表  1  星毛唐松草叶绿体基因组密码子不同位置GC含量及ENC值
    Table  1.  GC and ENC value of the cp chloroplast genome of T. cirrhosum
    基因 GC1/% GC2/% GC3/% GCall/% ENC 基因 GC1/% GC2/% GC3/% GCall/% ENC
    psbA 49.72 43.22 36.16 43.03 39.85 rpl22 42.86 36.26 28.02 35.71 49.66
    rpl16 52.94 52.21 28.68 44.61 41.54 rpoC1 51.10 37.59 28.19 38.96 50.01
    atpF 45.41 32.43 32.43 36.76 41.55 atpA 55.71 39.57 31.50 42.26 50.22
    ndhC 49.59 32.23 26.45 36.09 42.02 psaA 52.33 43.41 34.49 43.41 50.80
    rps12 51.61 46.77 25.00 41.13 42.23 rpoC2 46.08 38.24 29.90 38.07 50.83
    ndhA 43.41 39.56 22.25 35.07 42.55 rbcL 58.40 43.07 31.93 44.47 50.84
    petD 51.79 38.10 29.17 39.68 42.80 rps3 47.95 35.62 28.31 37.29 50.97
    rpl20 37.29 50.00 30.20 39.83 43.62 psaB 48.57 43.27 34.42 42.09 51.53
    ndhF 40.12 39.11 25.20 34.81 43.89 rps11 52.52 57.55 28.06 46.04 51.62
    atpI 49.19 38.31 26.61 38.04 44.18 rpoA 46.47 35.29 28.82 36.86 51.94
    rps7 52.56 44.87 23.08 40.17 44.69 petA 50.77 36.22 31.89 39.63 51.98
    atpE 48.51 41.79 29.10 39.80 45.43 rpoB 50.23 38.66 32.21 40.37 52.00
    ccsA 35.58 35.89 26.07 32.52 46.85 ndhH 51.78 36.80 29.19 39.26 52.04
    ndhB 42.47 38.94 30.72 37.38 47.30 cemA 39.57 27.39 32.17 33.04 52.26
    atpB 56.71 41.48 30.46 42.89 47.51 ndhI 41.67 38.89 30.00 36.85 52.92
    psbB 54.62 46.37 30.45 43.81 47.87 pafII 43.78 43.24 32.43 39.82 53.52
    petB 49.07 41.67 39.35 43.36 48.09 rps4 51.49 39.60 27.23 39.44 53.59
    rps8 46.62 43.61 24.81 38.35 48.11 ndhK 43.42 45.18 30.26 39.62 53.66
    psbD 53.11 43.79 34.75 43.88 48.51 pafI 48.52 39.05 30.18 39.25 54.65
    matK 38.82 30.78 25.29 31.63 48.79 rpl2 50.55 49.82 34.18 44.85 54.81
    rps2 39.24 44.30 29.11 39.24 48.8 ycf1 38.77 29.95 37.17 35.29 55.85
    ndhG 44.13 34.08 29.05 35.75 49.21 clpP1 61.58 37.44 37.44 45.48 56.98
    rpl14 54.47 36.59 25.20 38.75 49.54 ndhJ 51.57 36.48 35.85 41.30 59.17
    accD 42.24 35.10 30.20 35.85 49.56 rpl22 42.86 36.26 28.02 35.71 49.66
    下载: 导出CSV 
    | 显示表格

    进一步对密码子GC含量及其ENC值的相关性进行分析,结果见表2。GC1与GC2的相关性系数为0.369,显示出明显的相关性(P<0.05),GCall与GC1的相关性系数为0.810,极显著相关(P<0.01),与GC2的相关性系数为0.655,也极显著相关(P<0.01),而与GC3的相关性系数为0.388,显著相关(P<0.05)。GC3与GC1的相关性系数为0.055,与GC2的相关性系数为−0.099,均不具有相关性,表明星毛唐松草叶绿体基因组中,密码子第1位与第2位的碱基组成具有高度的相似度,但是第3位的碱基组成与第1位和第2位具有显著的差异。ENC值与GC1和GC2的相关性分别为0.269和−0.059,相关性不显著,而与GC3的相关性系数为0.388,显著相关(P<0.05),说明在星毛唐松草的叶绿体基因组中,密码子第3位的碱基组成与密码子的偏好性显著相关,第3位的碱基组成对密码子的偏好性有十分重要的影响。GC3与密码子的数量也具有显著相关性(P<0.05),表明密码子第3位的碱基组成对密码子的数量也有一定的影响。

    表  2  星毛唐松草GC1、GC2、GC3、GCall,ENC及GC12的相关性分析
    Table  2.  Correlation analysis of GC1, GC2, GC3, GCall,ENC and GC12 from T. cirrhosum chloroplast genome
    参数 GC1 GC2 GC3 GCall ENC
    GC2 0.369*
    GC3 0.055 −0.099
    GCall 0.810** 0.655** 0.400*
    ENC 0.269 −0.059 0.388* 0.298
    GC12 0.850** 0.795** −0.019 0.915** 0.155
     注: *表示相关性显著(P<0.05);**表示相关性极显著(P<0.01)。
    下载: 导出CSV 
    | 显示表格

    中性绘图分析表明GC3与GC12的相关性很弱(图2),相关系数非常低,表明3个位置的密码子含量存在明显的不同。在生成的所有基因的中性图中,回归线的斜率接近于零,而且大多数绘图点不在对角线上或沿对角线分布,表明密码子的偏好是由自然选择主导的。

    图  2  星毛唐松草叶绿体基因中性绘图分析
    Figure  2.  Neutrality plot analysis of the chloroplast genome of T. cirrhosum

    ENC−plot分析(图3)表明,只有少数点位于或接近预期的曲线,大多数ENC值低于预期值,表明星毛唐松草叶绿体基因组的密码子使用偏好主要受自然选择和其他因素的影响,而突变压力只起了很小的作用。ENC比值频数分布表明(表3),仅有10个基因位于−0.05 ~ 0.05,表明这些基因受到了突变的影响,而剩余的基因则主要受到了自然选择的影响。

    图  3  星毛唐松草叶绿体基因组ENC与GC3关联分析
    Figure  3.  Association analysis between ENC and GC3 of chloroplast genome in T. cirrhosum
    表  3  星毛唐松草叶绿体基因组ENC比值频数分布
    Table  3.  Distribution of ENC ratio of chloroplast genome in T. cirrhosum
    组段 组中值 频数 频率
    −0.15 ~ −0.05 −0.10 3 0.0625
    −0.05 ~ 0.05 0.00 10 0.3125
    0.05 ~ 0.15 0.10 23 0.3750
    0.15 ~ 0.25 0.20 7 0.1458
    0.25 ~ 0.35 0.30 5 0.1042
    合计 48
    下载: 导出CSV 
    | 显示表格

    星毛唐松草叶绿体基因组中,48个筛选出的蛋白编码基因共包含17288个密码子,其中蛋氨酸和色氨酸仅由1个密码子编码,分别为ATG和TGG。其余的氨基酸由2 ~ 6个密码子编码,并表现出明显的密码子使用偏好性(图4)。星毛唐松草叶绿体基因组48个蛋白编码基因中,最丰富的是亮氨酸(Leu),共包含1652个(9.6%)。而含量最少的氨基酸是半胱氨酸,仅有195个(1.1%)。同时,在编码亮氨酸的6个密码子中,UUA的RSCU值最大,为2.02(表4),表明UUA具有很高的偏好性,是最常用的密码子。

    图  4  星毛唐松草48个蛋白编码区氨基酸的RSCU分析
    Figure  4.  Relative synonymous codon usage(RSCU) values for amino acids of the 48 protein-coding regions of T. cirrhosum.
    表  4  星毛唐松草RSCU分析及最优密码子分析
    Table  4.  RSCU analysis and determination of optimal codons in T. cirrhosum
    氨基酸 密码子 RSCU RSCU高表达 RSCU低表达 ΔRSCU 氨基酸 密码子 RSCU RSCU高表达 RSCU低表达 ΔRSCU
    Phe UUU 1.31 1.49 0.87 0.62 Tyr UAU 1.60 1.61 0.73 0.88
    UUC 0.69 0.51 1.13 −0.62 UAC 0.40 0.39 1.20 −0.81
    Leu UUA 2.02 1.87 2.00 −0.13 TER UAA 1.43 1.20 1.80 −0.60
    UUG 1.22 1.03 1.33 −0.30 UAG 0.52 0.60 0.94 −0.34
    CUU 1.25 1.24 1.33 −0.09 His CAU 1.48 1.38 1.06 0.32
    CUC 0.34 0.5 0 0.50 CAC 0.52 0.62 1.50 −0.88
    CUA 0.78 0.84 1.11 −0.27 Gln CAA 1.54 1.64 0.50 1.14
    CUG 0.39 0.53 0.22 0.31 CAG 0.46 0.36 1.13 −0.77
    Ile AUU 1.50 1.38 1.70 −0.32 Asn AAU 1.57 1.54 0.87 0.67
    AUC 0.53 0.49 0.63 −0.14 AAC 0.43 0.46 1.52 −1.06
    AUA 0.96 1.13 0.67 0.46 Lys AAA 1.52 1.48 0.48 1.00
    Met AUG 1.00 1.00 1.00 0 AAG 0.48 0.52 1.81 −1.29
    Val GUU 1.48 1.42 1.53 −0.11 Asp GAU 1.60 1.68 0.19 1.49
    GUC 0.41 0.71 0.41 0.30 GAC 0.40 0.32 1.60 −1.28
    GUA 1.59 1.35 1.71 −0.36 Glu GAA 1.50 1.58 0.40 1.18
    GUG 0.52 0.53 0.35 0.18 GAG 0.50 0.42 0.73 −0.31
    Ser UCU 1.61 1.23 2.23 −1.00 Cys UGU 1.37 1.19 0 1.19
    UCC 1.01 0.94 1.06 −0.12 UGC 0.63 0.81 0 0.81
    UCA 1.18 1.54 0.48 1.06 TER UGA 1.04 1.20 1.00 0.20
    UCG 0.58 0.79 0.29 0.50 Trp UGG 1.00 1.00 1.69 −0.69
    Pro CCU 1.55 1.56 1.64 −0.08 Arg CGU 1.41 0.83 0.56 0.27
    CCC 0.86 0.72 0.62 0.10 CGC 0.43 0.28 1.69 −1.41
    CCA 1.02 0.88 1.54 −0.66 CGA 1.38 1.51 0.19 1.32
    CCG 0.56 0.84 0.21 0.63 CGG 0.42 0.36 1.35 −0.99
    Thr ACU 1.48 0.97 1.67 −0.70 Ser AGU 1.21 1.19 0.58 0.61
    ACC 0.77 0.78 1.40 −0.62 AGC 0.41 0.31 1.50 −1.19
    ACA 1.30 1.78 0.93 0.85 Arg AGA 1.71 2.19 0.38 1.81
    ACG 0.45 0.47 0 0.47 AGG 0.65 0.83 1.79 −0.96
    Ala GCU 1.66 1.42 2.00 −0.58 Gly GGU 1.32 0.90 0.36 0.54
    GCC 0.69 0.77 0.69 0.08 GGC 0.50 0.41 1.38 −0.97
    GCA 1.09 0.95 0.69 0.26 GGA 1.49 1.83 0.46 1.37
    下载: 导出CSV 
    | 显示表格

    星毛唐松草叶绿体基因组48条蛋白编码基因中,编码每1个氨基酸的密码子RSCU值见表4。大多数RSCU>1的密码子都以A/U为末端密码子,而以C/G为末端的密码子的RSCU值通常小于1。48个基因中,RSCU>1的密码子有35个,这些密码子被认为是星毛唐松草叶绿体基因组中出现较多的密码子。将ENC值从小到大排列后建立高表达基因库(pafIrpl2ycf1clpP1ndhJ)及低表达基因库(psbArpl16atpFndhCrps12),分别计算RSCU值后相减,得出ΔRSCU值,ΔRSCU≥0.08的密码子有30个,作为星毛唐松草叶绿体基因组的高表达基因。同时选取RSCU>1且ΔRSCU≥0.08的密码子作为最优密码子,表4中加粗且加下划线的为最优密码子,即UUU、UCA、ACA、GCA、UAU、CAU、CAA、AAU、AAA、GAU、GAA、UGA、CGU、CGA、AGU、AGA、GGU和GGA,共计18个最优密码子,均以A和U结尾。

    分析比较了星毛唐松草及其属内其他3种近缘种的叶绿体基因组密码子偏好性(图5),了解其密码子使用的差异。每条叶绿体基因组经过严格的过滤筛选后,分别选择48个蛋白编码序列(>300 bp)进行分析,结果表明星毛唐松草与其他唐松草属植物的密码子偏好性非常相似,对4个物种的RSCU值也进行了比较,对于每一个氨基酸来说,参与其编码的所有密码子的RSCU值之和几乎相等。另外,这些物种中相同密码子的RSCU值几乎相同,说明它们的密码子使用习惯比较稳定,几乎没有变化。图5表明,星毛唐松草与其他唐松草属植物叶绿体基因组的蛋白编码基因中,使用频率最高的密码子为AUU,而AAA、GAA、AAU的使用频率也相对较高,密码子使用频率较低的为UAA、UAG及UGA。

    图  5  星毛唐松草属叶绿体基因组密码子比较
    Figure  5.  Comparative codon analysis of the chloroplast genome in T. cirrhosum

    PR2−plot 绘图分析中(图6),如果各密码子的A、T、C和G3位碱基的使用频率相同,则 PR2−plot 平面图内基因应当均匀分布。但结果(图6)表明,星毛唐松草叶绿体基因组48个基因分布不均匀,少部分基因落在中线上,说明其密码子偏好性受突变压力的影响,大部分基因位于4个区域的下方,且右下方居多,说明这48个基因的密码子的第3位的碱基使用情况为T大于A且C大于G,也就是说相比嘌呤C/T,嘧啶A/G的使用频率要更低。PR2−plot 绘图分析表明,星毛唐松草叶绿体基因组密码子的使用模式不仅受到突变压力的影响,自然选择也起到了一定的作用。

    图  6  星毛唐松草叶绿体基因组PR2−plot绘图分析
    Figure  6.  Analysis of PR2 bias plot of T. cirrhosum chloroplast genome

    叶绿体基因组在大部分被子植物中的遗传方式为母系遗传,因而叶绿体基因组相比其他质体基因组更为保守,结构也很稳定,因而植物叶绿体基因组常被用于群体进化、种质资源鉴定及群体遗传学研究,在物种的进化过程中同样发挥着重要作用[9]。密码子在生物体内信息传递方面发挥着不可或缺的作用,功能基因的转录、翻译及表达同样受到密码子的影响,因而密码子的偏好性也会对功能基因的表达产生重要的作用[24]。密码子的使用偏好与基因表达密切相关,并影响到基因组中的蛋白质和mRNA水平,密码子独有的使用方法及使用偏好性会在植物长期的进化进程中逐渐累积,因而在不同的植物中,甚至同一植物不同基因间,密码子的偏好性也会各有不同,研究叶绿体基因组编码基因的密码子使用偏好性可以更好地理解功能基因的表达模式及进化方式,从而进一步了解不同物种间的进化关系[25]

    星毛唐松草叶绿体基因组中,最丰富的氨基酸是亮氨酸,共包含1652(9.6%)个,这与其他被子植物叶绿体基因组所报道的一致[26]。更有意思的是,大多数以A/U结尾的密码子的RSCU值都大于1,而以C/G结尾的则小于1,这一模式与其他植物的叶绿体基因组的使用模式一致[27]。植物叶绿体基因组中,密码子第3位通常比较保守,选择压力对其影响不大,所以GC3是密码子偏好性评估的重要指标[27]。本研究发现不同基因的GC1、GC2、GC3含量存在明显的差异,平均含量分别为47.97、39.99、30.07,且GC1与GC2显著相关(P<0.05),而GC3与GC1、GC2、GC12均没有相关性, 表明星毛唐松草的密码子A/U含量比C/G含量要多,中性绘图分析结果表明密码子的偏好性受到了选择的影响,这与多种植物的研究结果一致[26-27]

    星毛唐松草叶绿体基因组筛选出的48条CDS序列中,大多数基因的ENC值大于45,表明这些基因的密码子具有较弱的偏好性。ENC−plot分析结果表明,星毛唐松草叶绿体基因组中,绝大多数基因密码子的偏好性受到了选择作用的影响,而仅有少部分基因与突变有关,巨桉(Eucalyptus grandis)的叶绿体基因组密码子偏好研究中,同样也发现了这一规律[28]。PR2−plot绘图表明,密码子第3位的碱基出现的规律为T、G大于A、C,这一结果体现出星毛唐松草叶绿体基因组密码子偏好性不仅受到选择的影响,突变及其他因素的作用也不容忽视,这与原晓龙等[29]在蒜头果(Malaniaoleifera)研究中发现的规律一致。总结PR2−plot及ENC−plot结果后发现,星毛唐松草叶绿体基因组密码子使用偏好性与多种因素有关,选择是绝大多数基因密码子偏好性的主要影响因子。

    星毛唐松草叶绿体基因组最优密码子分析共发现UUU、UCA、ACA、GCA、UAU、CAU、CAA、AAU、AAA、GAU、GAA、UGA、CGU、CGA、AGU、AGA、GGU和GGA 18个最优密码子,且这18个最优密码子均以A和U结尾,这与绝大多数植物叶绿体基因组的最优密码子使用模式一致[27-29],表明大多数植物的叶绿体基因组密码子使用偏好性具有相似性。本研究通过高通量测序技术组装了星毛唐松草的完整的叶绿体基因组序列,并对其密码子使用模式及其偏好性进行了分析,明确了其密码子偏好性的主要影响因素,并筛选出18个最优密码子,这为后续其他唐松草属密码子偏好性及叶绿体基因组的研究奠定了基础,且为今后星毛唐松草遗传多样性、群体遗传、种质资源的鉴定及系统发育研究提供了理论基础。

  • 图  1   星毛唐松草叶绿体全基因组图谱

    Figure  1.   Circle gene map of the T. cirrhosum cp genome

    图  2   星毛唐松草叶绿体基因中性绘图分析

    Figure  2.   Neutrality plot analysis of the chloroplast genome of T. cirrhosum

    图  3   星毛唐松草叶绿体基因组ENC与GC3关联分析

    Figure  3.   Association analysis between ENC and GC3 of chloroplast genome in T. cirrhosum

    图  4   星毛唐松草48个蛋白编码区氨基酸的RSCU分析

    Figure  4.   Relative synonymous codon usage(RSCU) values for amino acids of the 48 protein-coding regions of T. cirrhosum.

    图  5   星毛唐松草属叶绿体基因组密码子比较

    Figure  5.   Comparative codon analysis of the chloroplast genome in T. cirrhosum

    图  6   星毛唐松草叶绿体基因组PR2−plot绘图分析

    Figure  6.   Analysis of PR2 bias plot of T. cirrhosum chloroplast genome

    表  1   星毛唐松草叶绿体基因组密码子不同位置GC含量及ENC值

    Table  1   GC and ENC value of the cp chloroplast genome of T. cirrhosum

    基因 GC1/% GC2/% GC3/% GCall/% ENC 基因 GC1/% GC2/% GC3/% GCall/% ENC
    psbA 49.72 43.22 36.16 43.03 39.85 rpl22 42.86 36.26 28.02 35.71 49.66
    rpl16 52.94 52.21 28.68 44.61 41.54 rpoC1 51.10 37.59 28.19 38.96 50.01
    atpF 45.41 32.43 32.43 36.76 41.55 atpA 55.71 39.57 31.50 42.26 50.22
    ndhC 49.59 32.23 26.45 36.09 42.02 psaA 52.33 43.41 34.49 43.41 50.80
    rps12 51.61 46.77 25.00 41.13 42.23 rpoC2 46.08 38.24 29.90 38.07 50.83
    ndhA 43.41 39.56 22.25 35.07 42.55 rbcL 58.40 43.07 31.93 44.47 50.84
    petD 51.79 38.10 29.17 39.68 42.80 rps3 47.95 35.62 28.31 37.29 50.97
    rpl20 37.29 50.00 30.20 39.83 43.62 psaB 48.57 43.27 34.42 42.09 51.53
    ndhF 40.12 39.11 25.20 34.81 43.89 rps11 52.52 57.55 28.06 46.04 51.62
    atpI 49.19 38.31 26.61 38.04 44.18 rpoA 46.47 35.29 28.82 36.86 51.94
    rps7 52.56 44.87 23.08 40.17 44.69 petA 50.77 36.22 31.89 39.63 51.98
    atpE 48.51 41.79 29.10 39.80 45.43 rpoB 50.23 38.66 32.21 40.37 52.00
    ccsA 35.58 35.89 26.07 32.52 46.85 ndhH 51.78 36.80 29.19 39.26 52.04
    ndhB 42.47 38.94 30.72 37.38 47.30 cemA 39.57 27.39 32.17 33.04 52.26
    atpB 56.71 41.48 30.46 42.89 47.51 ndhI 41.67 38.89 30.00 36.85 52.92
    psbB 54.62 46.37 30.45 43.81 47.87 pafII 43.78 43.24 32.43 39.82 53.52
    petB 49.07 41.67 39.35 43.36 48.09 rps4 51.49 39.60 27.23 39.44 53.59
    rps8 46.62 43.61 24.81 38.35 48.11 ndhK 43.42 45.18 30.26 39.62 53.66
    psbD 53.11 43.79 34.75 43.88 48.51 pafI 48.52 39.05 30.18 39.25 54.65
    matK 38.82 30.78 25.29 31.63 48.79 rpl2 50.55 49.82 34.18 44.85 54.81
    rps2 39.24 44.30 29.11 39.24 48.8 ycf1 38.77 29.95 37.17 35.29 55.85
    ndhG 44.13 34.08 29.05 35.75 49.21 clpP1 61.58 37.44 37.44 45.48 56.98
    rpl14 54.47 36.59 25.20 38.75 49.54 ndhJ 51.57 36.48 35.85 41.30 59.17
    accD 42.24 35.10 30.20 35.85 49.56 rpl22 42.86 36.26 28.02 35.71 49.66
    下载: 导出CSV

    表  2   星毛唐松草GC1、GC2、GC3、GCall,ENC及GC12的相关性分析

    Table  2   Correlation analysis of GC1, GC2, GC3, GCall,ENC and GC12 from T. cirrhosum chloroplast genome

    参数 GC1 GC2 GC3 GCall ENC
    GC2 0.369*
    GC3 0.055 −0.099
    GCall 0.810** 0.655** 0.400*
    ENC 0.269 −0.059 0.388* 0.298
    GC12 0.850** 0.795** −0.019 0.915** 0.155
     注: *表示相关性显著(P<0.05);**表示相关性极显著(P<0.01)。
    下载: 导出CSV

    表  3   星毛唐松草叶绿体基因组ENC比值频数分布

    Table  3   Distribution of ENC ratio of chloroplast genome in T. cirrhosum

    组段 组中值 频数 频率
    −0.15 ~ −0.05 −0.10 3 0.0625
    −0.05 ~ 0.05 0.00 10 0.3125
    0.05 ~ 0.15 0.10 23 0.3750
    0.15 ~ 0.25 0.20 7 0.1458
    0.25 ~ 0.35 0.30 5 0.1042
    合计 48
    下载: 导出CSV

    表  4   星毛唐松草RSCU分析及最优密码子分析

    Table  4   RSCU analysis and determination of optimal codons in T. cirrhosum

    氨基酸 密码子 RSCU RSCU高表达 RSCU低表达 ΔRSCU 氨基酸 密码子 RSCU RSCU高表达 RSCU低表达 ΔRSCU
    Phe UUU 1.31 1.49 0.87 0.62 Tyr UAU 1.60 1.61 0.73 0.88
    UUC 0.69 0.51 1.13 −0.62 UAC 0.40 0.39 1.20 −0.81
    Leu UUA 2.02 1.87 2.00 −0.13 TER UAA 1.43 1.20 1.80 −0.60
    UUG 1.22 1.03 1.33 −0.30 UAG 0.52 0.60 0.94 −0.34
    CUU 1.25 1.24 1.33 −0.09 His CAU 1.48 1.38 1.06 0.32
    CUC 0.34 0.5 0 0.50 CAC 0.52 0.62 1.50 −0.88
    CUA 0.78 0.84 1.11 −0.27 Gln CAA 1.54 1.64 0.50 1.14
    CUG 0.39 0.53 0.22 0.31 CAG 0.46 0.36 1.13 −0.77
    Ile AUU 1.50 1.38 1.70 −0.32 Asn AAU 1.57 1.54 0.87 0.67
    AUC 0.53 0.49 0.63 −0.14 AAC 0.43 0.46 1.52 −1.06
    AUA 0.96 1.13 0.67 0.46 Lys AAA 1.52 1.48 0.48 1.00
    Met AUG 1.00 1.00 1.00 0 AAG 0.48 0.52 1.81 −1.29
    Val GUU 1.48 1.42 1.53 −0.11 Asp GAU 1.60 1.68 0.19 1.49
    GUC 0.41 0.71 0.41 0.30 GAC 0.40 0.32 1.60 −1.28
    GUA 1.59 1.35 1.71 −0.36 Glu GAA 1.50 1.58 0.40 1.18
    GUG 0.52 0.53 0.35 0.18 GAG 0.50 0.42 0.73 −0.31
    Ser UCU 1.61 1.23 2.23 −1.00 Cys UGU 1.37 1.19 0 1.19
    UCC 1.01 0.94 1.06 −0.12 UGC 0.63 0.81 0 0.81
    UCA 1.18 1.54 0.48 1.06 TER UGA 1.04 1.20 1.00 0.20
    UCG 0.58 0.79 0.29 0.50 Trp UGG 1.00 1.00 1.69 −0.69
    Pro CCU 1.55 1.56 1.64 −0.08 Arg CGU 1.41 0.83 0.56 0.27
    CCC 0.86 0.72 0.62 0.10 CGC 0.43 0.28 1.69 −1.41
    CCA 1.02 0.88 1.54 −0.66 CGA 1.38 1.51 0.19 1.32
    CCG 0.56 0.84 0.21 0.63 CGG 0.42 0.36 1.35 −0.99
    Thr ACU 1.48 0.97 1.67 −0.70 Ser AGU 1.21 1.19 0.58 0.61
    ACC 0.77 0.78 1.40 −0.62 AGC 0.41 0.31 1.50 −1.19
    ACA 1.30 1.78 0.93 0.85 Arg AGA 1.71 2.19 0.38 1.81
    ACG 0.45 0.47 0 0.47 AGG 0.65 0.83 1.79 −0.96
    Ala GCU 1.66 1.42 2.00 −0.58 Gly GGU 1.32 0.90 0.36 0.54
    GCC 0.69 0.77 0.69 0.08 GGC 0.50 0.41 1.38 −0.97
    GCA 1.09 0.95 0.69 0.26 GGA 1.49 1.83 0.46 1.37
    下载: 导出CSV
  • Sharp P M, Li W H. The Codon Adaptation Index: a measure of directional synonymous Codon usage bias, and its potential applications [J]. Nucleic Acids Research, 1987, 15(3): 1281−1295. DOI: 10.1093/nar/15.3.1281

    钱留华. 密码子 [J]. 生物学通报, 1997, 32(4): 15−17.
    吴学俊, 梁湘兰, 易子群, 等. 湖北山楂叶绿体基因组密码子偏好性分析 [J]. 分子植物育种, 2023, 21(8): 2508−2516.
    任桂萍, 董璎莹, 党云琨. 密码子中的密码: 密码子偏好性与基因表达的精细调控 [J]. 中国科学(生命科学), 2019, 49(7): 839−847.
    原晓龙, 康洪梅, 王毅. 云南蓝果树叶绿体基因组密码子偏好性分析 [J]. 西北林学院学报, 2020, 35(4): 26−31,124. DOI: 10.3969/j.issn.1001-7461.2020.04.05
    冯瑞云, 梅超, 王慧杰, 等. 籽粒苋叶绿体基因组密码子偏好性分析 [J]. 中国草地学报, 2019, 41(4): 8−15.
    李路丽, 张萍, 曾强, 等. 芝麻叶绿体基因组的密码子使用偏性及其影响因素 [J]. 分子植物育种, 2023, 21(4): 4535−4544.
    杨家鑫. 掌叶木和伞花木的叶绿体全基因组研究及其系统位置分析[D]. 贵阳: 贵州大学, 2019.

    Palmer J D. Comparative organization of chloroplast genomes [J]. Annual Review of Genetics, 1985, 19: 325−354. DOI: 10.1146/annurev.ge.19.120185.001545

    Asaf S, Khan A L, Khan A R, et al. Complete chloroplast genome of Nicotiana otophora and its comparison with related species [J]. Frontiers in Plant Science, 2016, 7: 843.

    Behura S K, Severson D W. Codon usage bias: causative factors, quantification methods and genome-wide patterns: with emphasis on insect genomes [J]. Biological Reviews of the Cambridge Philosophical Society, 2013, 88(1): 49−61. DOI: 10.1111/j.1469-185X.2012.00242.x

    王文采. 中国唐松草属植物[M]. 北京: 北京大学出版社, 2018.

    Luo D, Lv N, Zhu L J, et al. Isoquinoline alkaloids from whole plants of Thalictrum cirrhosum and their antirotavirus activity [J]. Chemistry of Natural Compounds, 2020, 56(3): 504−508. DOI: 10.1007/s10600-020-03072-5

    Chen S F, Zhou Y Q, Chen Y R, et al. Fastp: an ultra-fast all-in-one FASTQ preprocessor [J]. Bioinformatics, 2018, 34(17): 884−890. DOI: 10.1093/bioinformatics/bty560

    Langmead B, Salzberg S L. Fast gapped-read alignment with bowtie 2 [J]. Nature Methods, 2012, 9(4): 357−359. DOI: 10.1038/nmeth.1923

    Dierckxsens N, Mardulyn P, Smits G. NOVOPlasty: de novo assembly of organelle genomes from whole genome data [J]. Nucleic Acids Research, 2017, 45(4): e18.

    Tillich M, Lehwark P, Pellizzer T, et al. GeSeq−versatile and accurate annotation of organelle genomes [J]. Nucleic Acids Research, 2017, 45(1): 6−W11. DOI: 10.1093/nar/gkx391

    Chan P P, Lowe T M. tRNAscan−SE: searching for tRNA genes in genomic sequences [J]. Methods in Molecular Biology (Clifton, N J), 2019, 1962: 1−14.

    Kearse M, Moir R, Wilson A, et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data [J]. Bioinformatics, 2012, 28(12): 1647−1649. DOI: 10.1093/bioinformatics/bts199

    Chen C J, Chen H, Zhang Y, et al. TBtools: an integrative toolkit developed for interactive analyses of big biological data [J]. Molecular Plant, 2020, 13(8): 1194−1202. DOI: 10.1016/j.molp.2020.06.009

    原晓龙, 李云琴, 张劲峰, 等. 降香黄檀叶绿体基因组密码子偏好性分析 [J]. 广西植物, 2021, 41(4): 622−630. DOI: 10.11931/guihaia.gxzw201906012

    Rozas J, Ferrer-Mata A, Sánchez-DelBarrio J C, et al. DnaSP 6: DNA sequence polymorphism analysis of large data sets [J]. Molecular Biology and Evolution, 2017, 34(12): 3299−3302. DOI: 10.1093/molbev/msx248

    Zhu A D, Guo W H, Gupta S, et al. Evolutionary dynamics of the plastid inverted repeat: the effects of expansion, contraction, and loss on substitution rates [J]. The New Phytologist, 2016, 209(4): 1747−1756. DOI: 10.1111/nph.13743

    李真, 李永光, 薄蕾, 等. 大豆和拟南芥NFYB基因家族同义密码子使用偏好性的比较 [J]. 作物杂志, 2014(3): 14−21.

    Lyu X L, Liu Y. Nonoptimal Codon usage is critical for protein structure and function of the master general amino acid control regulator CPC−1 [J]. mBio, 2020, 11(5): e02605−e02620.

    Somaratne Y, Guan D L, Wang W Q, et al. The complete chloroplast genomes of two Lespedeza species: insights into Codon usage bias, RNA editing sites, and phylogenetic relationships in desmodieae (Fabaceae: papilionoideae) [J]. Plants (Basel, Switzerland), 2019, 9(1): 51.

    Liu X Y, Li Y, Ji K K, et al. Genome−wide Codon usage pattern analysis reveals the correlation between Codon usage bias and gene expression in Cuscuta australis [J]. Genomics, 2020, 112(4): 2695−2702. DOI: 10.1016/j.ygeno.2020.03.002

    王鹏良, 吴双成, 杨利平, 等. 巨桉叶绿体基因组密码子偏好性分析 [J]. 广西植物, 2019, 39(12): 1583−1592. DOI: 10.11931/guihaia.gxzw201810027
    原晓龙, 刘音, 康洪梅, 等. 蒜头果叶绿体基因组密码子偏好性分析 [J]. 西南林业大学学报(自然科学), 2021, 41(3): 15−22.
  • 期刊类型引用(4)

    1. 尹明华,李文婷,欧阳茜,王美暄,徐子林,张钦荣,张牧彤,黄添慧,何凡凡,乐芸,张嘉欣,柴桑雪. 苏丹草叶绿体基因组特征及系统发育分析. 草业科学. 2025(01): 101-118 . 百度学术
    2. 冯展,江媛,郑燕,缪雨静,黄林芳,罗光明. 肉苁蓉属植物叶绿体基因组密码子偏好性分析. 中草药. 2023(05): 1540-1550 . 百度学术
    3. 侯哲,娄晓鸣,李昂,黄长兵. 星毛唐松草叶绿体基因组特征及系统发育分析. 植物资源与环境学报. 2023(03): 24-32 . 百度学术
    4. 秦斗文,徐庭亮,闫京艳,巨秀婷. 柔毛郁金香叶绿体基因组密码子偏好性分析. 江苏农业科学. 2023(22): 41-47 . 百度学术

    其他类型引用(0)

图(6)  /  表(4)
计量
  • 文章访问数:  2927
  • HTML全文浏览量:  1203
  • PDF下载量:  42
  • 被引次数: 4
出版历程
  • 收稿日期:  2022-05-07
  • 修回日期:  2022-07-03
  • 录用日期:  2022-09-02
  • 网络出版日期:  2022-09-07
  • 发布日期:  2023-09-19

目录

/

返回文章
返回