Deciphering tea tree chloroplast and mitochondrial genomes of Camellia sinensis var. assamica
破译普洱茶的叶绿体和线粒体基因组

Fen Zhang1, Wei Li1, Cheng-wen Gao2, Dan Zhang1 & Li-zhi Gao 1,
1Institution of Genomics and Bioinformatics, South China Agricultural University, Guangzhou, 510642, China.
2Affiliated Hospital, Qingdao University, Qingdao, 266003, China. 3Plant Germplasm and Genomics center, Germplasm Bank of Wild Species in Southwestern china, Kunming institute of Botany, chinese Academy of Sciences, Kunming, 650204, China.
简介
山茶属植物具有工业、文化、药用和经济价值,但由于频繁的杂交和多倍体化,该属被认为是有花植物中分类和系统发育最困难的分类单元。叶绿体基因组具有结构保守、母系遗传和低重组率等特点,使其能够为分类、种源追踪和系统发育重建提供有价值的信息,从而解决复杂的进化关系。然而叶绿体基因组中存在核质体DNA导致系统进化分析出现误差。线粒体基因组结构的动态性使其也成为研究进化生物学的重要的遗传系统。本研究破译了普洱茶的线粒体和叶绿体基因组,并与已有的该属其他种的基因组进行比较分析,有助于对山茶属的分类和进化有更全面的了解。
实验方法
叶绿体和线粒体基因组reads从全基因组数据中获得。叶绿体基因组采用CLC Genomics Workbench v. 3.6.1组装,线粒体基因组组装分别使用单端测序和双端测序。叶绿体基因组的注释和分析在DOGMA进行。对于线粒体基因组,采用MITOFY注释蛋白编码基因和rRNA, tRNA scan-SE软件注释tRNA,用OrganellarGenomeDRAW绘基因圈图。重复序列分析利用MISA鉴定简单重复序列(SSRs),利用REPuter寻找向前和回文重复。RNA编辑位点查找采用PREP-cp and PREP-mt Web-based program。系统发育分析使用MEGA v.7.0,基于GTR + R + I模型构建基于叶绿体基因组最大似然树(ML),构建线粒体基因组邻接树(NJ)
图2.茶树线粒体基因组的组装和注释流程
结果
线粒体和叶绿体基因组内容
图1. 普洱茶叶绿体基因组图。圆圈外显示的基因是顺时针转录的,而圆圈内显示的基因按逆时针转录。属于不同功能组别的基因是彩色编码的。内圈中暗灰色虚线表示GC含量,浅灰色表示基因组的AT含量。
图3. 普洱茶线粒体基因组scaffold 1圈图。基因图显示了54个基因,属于不同功能组别的基因是彩色编码的。外圆转录为顺时针(外圈)和逆时针(内圈)。内圈深灰色表示GC含量
图4. 普洱茶线粒体基因组scaffold 2圈图。基因图显示了17个基因,属于不同功能组别的基因是彩色编码的。外圆转录为顺时针(外圈)和逆时针(内圈)。内圈深灰色表示GC含量
重复序列内容
我们的重复序列分析表明,普洱茶的线粒体基因组的重复序列比其叶绿体基因组更丰富、更具多样性(表4,在线表1-2)。
表4. 普洱茶叶绿体基因组中的长重复(重复单位>50 bp)。*P表示回文重复;F表示正向重复。在计算总长度时,已手动去除重叠重复
在线 表1(部分)普洱茶线粒体基因组scaffold 1中的长重复(重复单位>50 bp)
在线 表2 普洱茶线粒体基因组scaffold 2中的长重复(重复单位>50 bp)
RNA编辑位点
几乎所有线粒体基因组的编码蛋白基因都受到RNA编辑的影响除了T-urf13基因。不管是线粒体还是叶绿体基因,不同基因受RNA编辑的影响不同(在线表3-5)。
在线 表3(部分)普洱茶叶绿体基因组的RNA编辑位点(* C-value设置为0.8)
No. | Gene | Nucleotide Pos | AA Pos | Effect | Score* |
1 | accD | 64 | 22 | CGG (R) => TGG (W) | 1 |
2 | accD | 1469 | 490 | CCT (P) => CTT (L) | 1 |
3 | atpA | 791 | 264 | CCA (P) => CTA (L) | 1 |
4 | atpA | 914 | 305 | TCA (S) => TTA (L) | 1 |
5 | atpF | 92 | 31 | CCA (P) => CTA (L) | 0.86 |
…... | …... | …... | …... | …... | …... |
53 | rps14 | 80 | 27 | TCA (S) => TTA (L) | 1 |
54 | rps14 | 149 | 50 | CCA (P) => CTA (L) | 1 |
在线 表4(部分)普洱茶线粒体基因组scaffold 1的RNA编辑位点
在线 表5(部分)普洱茶线粒体基因组scaffold 2的RNA编辑位点
系统进化分析
图5. 基于20个完整叶绿体基因组的系统发育图。包含普洱茶及山茶属其他18个物种,以圆籽荷作为outgroup
图6. 基于15个植物线粒体基因组构建的系统发育图。基于普洱茶和其他14个物种的13个保守蛋白基因构建的邻接树,以台东苏铁和银杏为outgroup
总结
无患子在全国分布广泛,也存在分类困难的问题,特别是仅仅根据其表型特征。一般较多采用叶绿体基因组进行系统发育分析,但本文章结合叶绿体和线粒体基因组取得了不错的结果,后续可利用该方法明确无患子属的系统发育分类。
Zhang, F., Li, W., Gao, C.W., Zhang, D., and Gao, L.Z. (2019). Deciphering tea tree chloroplast and mitochondrial genomes of Camellia sinensis var. Assamica. Sci Data 6, 209. doi:10.1038/s41597-019-0201-8

本期文本

森培18级硕士 王昕
审定人:森培16级博士 高世轮
编辑:森培20级硕士 郑玉琳
