泛基因组

泛基因组是为描述一个物种基因组而提出的概念,指同一细菌物种中所有菌株中所有基因的集合,而不单纯以某个菌株为一个物种的全基因组。会需要使用泛基因组的原因是水平基因转移造成不同菌株之间所拥有的基因相差甚大。

用 Anvi'o 制备的无乳链球菌基因组的泛基因组分析 [1] software whose development is led by A. Murat Eren. Genomes obtained from Tettelin et al. (2005).[2] Each circle corresponds to one genome and each radius represent a gene family. At the bottom and at right are localized the core genome families. Some families in the core has may have more than one homologous gene per genome. In the middle, at the left of the figure the shell genome is observed. At the top left are shown families from the dispensable genome and singletons.

词源

泛基因组的英文是Pan-genome, Pan- 来自希腊语词汇 παν,意思是“全部的”[3]。在1987年[4],细菌物种的概念是大于70%的DNA相关联,并具有相同的表型性。但是随着对大量细菌基因组测序的完成,这种概念区分方法变得模糊、不确定——测定同一物种的不同菌株,常会有新的基因出现。这个概念常被用于总体基因体学演化生物学,应用的物种也有被延伸到植物或古菌

泛基因组的组成部分

 
在泛基因组中,我们可以识别出三组基因:核心的、壳的、和云的基因组。核心基因组包含存在于所有分析的基因组中的基因。 为避免因排序伪影而忽略系列,一些作者考虑了软核(>95% 的发生率)。 壳基因组由大多数基因组共享的基因组成(发生率为 10-95%)。 仅存在于一个基因组中或出现率低于 10% 的基因家族被描述为可有可无的或云基因组。

泛基因组包含核心基因附加基因。核心基因是所有个体都拥有的基因,附加基因则为非核心基因的基因[5][6]。在附加基因组中,若仅有一个个体具有该基因,则可称之为独特基因(英语:unique gene)。为了允许注解及基因序列组装的错误,对核心基因组较为宽松的定义可称之为软核心基因(soft core gene),其定义为于 95%以上的个体具有此基因。[7]

核心

泛基因组的一部分,由测试集中的每个基因组共享。 一些作者将核心泛基因组划分为硬核,那些至少有一个基因组(100%的基因组)共享该家族拷贝的同源基因家族和软核或扩展核心[8], 那些分布在上面的家族 一定的阈值(90%)。 在一项涉及蜡样芽孢杆菌金黄色葡萄球菌泛基因组的研究中,其中一些是从国际空间站分离出来的,用于分割泛基因组的阈值如下:“云”、“壳”和“核心”对应于基因 分别存在于 <10%、10%到95%、 和 >95% 的基因组中的家族[9]

核心基因组的大小和与泛基因组的比例取决于几个因素,但它尤其取决于所考虑基因组的系统发育相似性。 例如,两个相同基因组的核心也将是完整的泛基因组。 一个属的核心总是比一个物种的核心基因组小。 属于核心基因组的基因通常与谱系的管家功能和初级代谢有关,然而,核心基因也可以包含一些将该物种与该属的其他物种区分开来的基因,即可能与生态位的致病性相关适应[10]

是泛基因组中大多数基因组共享的泛基因组的一部分[11]。 没有普遍接受的定义壳基因组的阈值,一些作者认为如果一个基因家族被泛基因组中超过 50% 的基因组共享,则该基因家族是壳泛基因组的一部分[12]。 一个家族可以通过几种进化动力学成为壳的一部分,例如通过谱系中的基因丢失,它以前是核心基因组的一部分,例如放线菌属色氨酸操纵子中的[13], 或通过基因获得和固定一个基因家族,该家族以前是可有可无的基因组的一部分,例如几种棒状杆菌属物种中的 trpF 基因[14]

云基因组由泛基因组中基因组的最小子集共享的那些基因家族组成[15], 它包括单例或仅存在于一个基因组中的基因。 它也被称为周边基因组。 此类基因家族通常与生态适应有关[来源请求]

分类

 
a) Closed pangenomes are characterized by large core genomes and small accessory genomes. b) Open pangenomes tend to have small core genomes and large accessory genomes. c) The size of open pangenomes tends to increase with every added genome, meanwhile closed pangenome's size tends to be asymptotic despite adding more genomes. Due to this characteristic, complete pangenome size for closed pangenomes can be predicted.

各物种分有两类泛基因组,分别为开放型泛基因组和闭合型泛基因组。闭合型泛基因组的物种随著被定序的个体数量增加,泛基因组的大小增加有限,使得完整的泛基因组大小是在数学上可以预测的。相反地,开放型基因组的物种随著定序的个体增加,其泛基因组的大小并未收敛。影响物种是为何种泛基因组,受到族群大小、水平基因转移等影响。[6] [16]

历史

最早的泛基因组概念是由Tettelin等人在研究六株B型链球菌的菌株时提出的 [2],最主要的概念就是找出所有菌株共有的核心基因(约占每只菌株基因体的80%),以及非必须的附加基因(有可能只存在于一小部分的菌株中,或甚至只出现在单一菌株的基因体中),并透过核心基因与附加基因的组合来描述B型链球菌。外推法模型预测这只细菌的基因库会持续增长,且即使在加入数百只细菌后,新的基因将会不断加入,显示这只细菌的总基因库相当庞大。[2]

范例

原核生物泛基因组

 
肺炎链球菌泛基因体。(a) 新基因的数量与新加入的基因体数量对照。在加入的基因体超过50后,预测新的基因数量将会降到零。(b) 核心基因的数量与基因体数量对照。当基因体数量达到无限大时,核心基因的数量将会收敛到1,647。[17]

44株肺炎链球菌菌株的泛基因体分析与B型链球菌有著不同的特征形态—虽然每这44株细菌的基因体都会贡献新的基因给肺炎链球菌的基因库,但是基因增长速度会随著细菌数量的增加而明显变慢。事实上,外推法预测在50只细菌加入后,新基因的数量将会降到零。显而易见的是这个特征并非所有细菌共有的。对肺炎链球菌来说,新基因最主要的来源是和缓链球菌的水平基因转移。肺炎链球菌的泛基因大小将会与菌株数量成对数级增加,而与新加入基因体的核苷酸多形位点数量形成线性关系,显示年纪越大的菌株将会越有可能得到新基因。[17]

最后一个例子是原绿球藻的核心基因体与完整的泛基因体大小比对。[18] 在这个例子中,核心基因体明显地比泛基因体小很多,而不同生态型的原绿球藻会有著不同的基因组合。另一篇2015年的研究也在从人类身上不同部位分离普雷沃氏菌属,并重建泛基因体后,发现这只细菌有著庞大基因库,且属于开放式泛基因组类型。[19]

古菌也有一些泛基因组研究。 盐杆菌纲泛基因组(Halobacteria pangenome) 在泛基因组子集中显示以下基因家族:核心 (300)、可变组件(软核心:998、云:36531、壳:11784)[20]

真核生物泛基因组

真菌动物植物真核生物也显示出泛基因组的证据。 在已研究泛基因组的四种真菌中,80%至90%的基因模型被发现为核心基因。 其馀辅助基因主要涉及发病机制和抗菌素耐药性[21]

软体工具

随著越来越多人关注泛基因体学,有更多的软体可以用来建立与分析泛基因体、绘图、注解。[22] [22]

2014 年底最高引用数的的软体为 [22]Panseq[23] 以及 pan-genome analysis pipeline(PGAP)[24]。其他的选择包含 BPGA - A Pan-Genome Analysis Pipepline for prokaryotic genomes、GET_HOMOLOGUES、Roary 与 CD-HIT[25] GET_HOMOLOGUES页面存档备份,存于互联网档案馆[26] or Roary页面存档备份,存于互联网档案馆).[27] 。针对各家软体的比较,可以参照 2015 年的一篇文章。[22]

针对植物泛基因体的软体有 GET-HOMOLOGUES-EST[28] 。有关植物泛基因体可以参照 2015 的一篇文章[29]

参阅

参考资料

  1. ^ Eren AM, Kiefl E, Shaiber A, Veseli I, Miller SE, Schechter MS, et al. Community-led, integrated, reproducible multi-omics with anvi'o. Nature Microbiology. January 2021, 6 (1): 3–6. PMC 8116326 . PMID 33349678. doi:10.1038/s41564-020-00834-3. 
  2. ^ 2.0 2.1 2.2 Tettelin, Hervé; Masignani, Vega; Cieslewicz, Michael J.; Donati, Claudio; Medini, Duccio; Ward, Naomi L.; Angiuoli, Samuel V.; Crabtree, Jonathan; Jones, Amanda L.; Durkin, A. Scott; DeBoy, Robert T. Genome analysis of multiple pathogenic isolates of Streptococcus agalactiae: Implications for the microbial "pan-genome". Proceedings of the National Academy of Sciences. 2005-09-27, 102 (39): 13950–13955. Bibcode:2005PNAS..10213950T. ISSN 0027-8424. PMC 1216834 . PMID 16172379. doi:10.1073/pnas.0506758102  (英语).  引用错误:带有name属性“Tettelin2005”的<ref>标签用不同内容定义了多次
  3. ^ 存档副本. [2012-10-15]. (原始内容存档于2021-01-21). 
  4. ^ http://ijsb.sgmjournals.org/content/37/4/463.short[永久失效链接]
  5. ^ Medini, Duccio; Donati, Claudio; Tettelin, Hervé; Masignani, Vega; Rappuoli, Rino. The microbial pan-genome. Current Opinion in Genetics & Development. 2005, 15 (6): 589–594. PMID 16185861. doi:10.1016/j.gde.2005.09.006. 
  6. ^ 6.0 6.1 Vernikos, George; Medini, Duccio; Riley, David R; Tettelin, Hervé. Ten years of pan-genome analyses. Current Opinion in Microbiology. 2015, 23: 148–154 [2019-02-16]. doi:10.1016/j.mib.2014.11.016. (原始内容存档于2019-09-13). 
  7. ^ Kaas RS, Friis C, Ussery DW, Aarestrup FM. Estimating variation within the genes and inferring the phylogeny of 186 sequenced diverse Escherichia coli genomes. BMC Genomics. October 2012, 13: 577. PMC 3575317 . PMID 23114024. doi:10.1186/1471-2164-13-577. 
  8. ^ Halachev MR, Loman NJ, Pallen MJ. Calculating orthologs in bacteria and Archaea: a divide and conquer approach. PLOS ONE. 2011, 6 (12): e28388. Bibcode:2011PLoSO...628388H. PMC 3236195 . PMID 22174796. doi:10.1371/journal.pone.0028388 . 
  9. ^ Blaustein RA, McFarland AG, Ben Maamar S, Lopez A, Castro-Wallace S, Hartmann EM. Pangenomic Approach To Understanding Microbial Adaptations within a Model Built Environment, the International Space Station, Relative to Human Hosts and Soil. mSystems. 2019, 4 (1): e00281–18. PMC 6325168 . PMID 30637341. doi:10.1128/mSystems.00281-18. 
  10. ^ Mosquera-Rendón J, Rada-Bravo AM, Cárdenas-Brito S, Corredor M, Restrepo-Pineda E, Benítez-Páez A. Pangenome-wide and molecular evolution analyses of the Pseudomonas aeruginosa species. BMC Genomics. January 2016, 17 (45): 45. PMC 4710005 . PMID 26754847. doi:10.1186/s12864-016-2364-4. 
  11. ^ Snipen L, Ussery DW. Standard operating procedure for computing pangenome trees. Standards in Genomic Sciences. January 2010, 2 (1): 135–41. PMC 3035256 . PMID 21304685. doi:10.4056/sigs.38923. 
  12. ^ Sélem-Mojica N, Aguilar C, Gutiérrez-García K, Martínez-Guerrero CE, Barona-Gómez F. EvoMining reveals the origin and fate of natural product biosynthetic enzymes. Microbial Genomics. December 2019, 5 (12): e000260. PMC 6939163 . PMID 30946645. doi:10.1099/mgen.0.000260. 
  13. ^ Juárez-Vázquez AL, Edirisinghe JN, Verduzco-Castro EA, Michalska K, Wu C, Noda-García L, et al. Evolution of substrate specificity in a retained enzyme driven by gene loss. eLife. March 2017, 6 (6): e22679. PMC 5404923 . PMID 28362260. doi:10.7554/eLife.22679. 
  14. ^ Noda-García L, Camacho-Zarco AR, Medina-Ruíz S, Gaytán P, Carrillo-Tripp M, Fülöp V, Barona-Gómez F. Evolution of substrate specificity in a recipient's enzyme following horizontal gene transfer. Molecular Biology and Evolution. September 2013, 30 (9): 2024–34. PMID 23800623. doi:10.1093/molbev/mst115. 
  15. ^ Vernikos GS. A Review of Pangenome Tools and Recent Studies. The Pangenome. 2020: 89–112. ISBN 978-3-030-38280-3. PMID 32633917. S2CID 219011507. doi:10.1007/978-3-030-38281-0_4. 
  16. ^ McInerney, James O.; McNally, Alan; O'Connell, Mary J. Why prokaryotes have pangenomes. Nature Microbiology. 2017-03-28, 2 (4) [2019-02-16]. ISSN 2058-5276. doi:10.1038/nmicrobiol.2017.40. (原始内容存档于2021-07-07) (英语). 
  17. ^ 17.0 17.1 Donati, C; Hiller, N. L.; Tettelin, H; Muzzi, A; Croucher, N. J.; Angiuoli, S. V.; Oggioni, M; Dunning Hotopp, J. C.; Hu, F. Z.; Riley, D. R.; Covacci, A; Mitchell, T. J.; Bentley, S. D.; Kilian, M; Ehrlich, G. D.; Rappuoli, R; Moxon, E. R.; Masignani, V. Structure and dynamics of the pan-genome of Streptococcus pneumoniae and closely related species. Genome Biology. 2010, 11 (10): R107. PMC 3218663 . PMID 21034474. doi:10.1186/gb-2010-11-10-r107. 
  18. ^ Kettler GC, Martiny AC, Huang K, Zucker J, Coleman ML, Rodrigue S, Chen F, Lapidus A, Ferriera S, Johnson J, Steglich C, Church GM, Richardson P, Chisholm SW. Patterns and Implications of Gene Gain and Loss in the Evolution of Prochlorococcus. PLoS Genetics. 2007, 3 (12): e231. ISSN 1553-7390. PMC 2151091 . PMID 18159947. doi:10.1371/journal.pgen.0030231. 
  19. ^ Gupta VK, Chaudhari NM, Dutta C. Divergences in gene repertoire among the reference Prevotella genomes derived from distinct body sites of human. BMC Genomics. 2015, 16 (153). PMC 4359502 . PMID 25887946. doi:10.1186/s12864-015-1350-6. 
  20. ^ Gaba S, Kumari A, Medema M, Kaushik R. Pan-genome analysis and ancestral state reconstruction of class halobacteria: probability of a new super-order. Scientific Reports. December 2020, 10 (1): 21205. Bibcode:2020NatSR..1021205G. PMC 7713125 . PMID 33273480. doi:10.1038/s41598-020-77723-6. 
  21. ^ McCarthy CG, Fitzpatrick DA. Pan-genome analyses of model fungal species. Microbial Genomics. February 2019, 5 (2). PMC 6421352 . PMID 30714895. doi:10.1099/mgen.0.000243. 
  22. ^ 22.0 22.1 22.2 22.3 Xiao, Jingfa; Zhang, Zhewen; Wu, Jiayan; Yu, Jun. A brief review of software tools for pangenomics. Genomics, Proteomics & Bioinformatics. 23 February 2015, 13 (1): 73–76 [2017-01-28]. doi:10.1016/j.gpb.2015.01.007. (原始内容存档于2020-06-02). 
  23. ^ Laing, Chad; Buchanan, Cody; Taboada, Eduardo; Zhang, Yongxiang; Kropinski, Andrew; Villegas, Andrea; Thomas, James; Gannon, Victor. Pan-genome sequence analysis using Panseq: an online tool for the rapid analysis of core and accessory genomic regions. BMC Bioinformatics. 15 September 2010, 11 (1): 461 [2017-01-28]. doi:10.1186/1471-2105-11-461. (原始内容存档于2019-09-13). 
  24. ^ Zhao, Yongbing; Wu, Jiayan; Yang, Junhui; Sun, Shixiang; Xiao, Jingfa; Yu, Jun. PGAP: pan-genomes analysis pipeline. Bioinformatics. 29 November 2011, 28 (3): 416–418 [2017-01-28]. PMC 3268234 . doi:10.1093/bioinformatics/btr655. (原始内容存档于2019-09-13). 
  25. ^ Chaudhari NM, Gupta VK, Dutta C. BPGA- an ultra-fast pan-genome analysis pipeline. Scientific Reports. 2016, 6 (24373). PMC 4829868 . PMID 27071527. doi:10.1038/srep24373. 
  26. ^ Contreras-Moreira B, Vinuesa P. GET_HOMOLOGUES, a versatile software package for scalable and robust microbial pangenome analysis (PDF). Appl Environ Microbiol. October 2013, 79 (24): 7696–701 [2019-02-16]. PMC 3837814 . PMID 24096415. doi:10.1128/AEM.02411-13. (原始内容存档 (PDF)于2017-08-18). 
  27. ^ Page AJ, Cummins CA, Hunt M, Wong VK, Reuter S, Holden MT, Fookes M, Falush D, Keane JA, Parkhill J. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. July 2015, 31 (22): 3691–3693. PMC 4817141 . PMID 26198102. doi:10.1093/bioinformatics/btv421. 
  28. ^ Contreras-Moreira B, Cantalapiedra CP, García-Pereira MJ, Gordon SP, Vogel JP, Igartua E, Casas AM, Vinuesa P. Analysis of Plant Pan-Genomes and Transcriptomes with GET_HOMOLOGUES-EST, a Clustering Solution for Sequences of the Same Species. Front. Plant Sci. February 2017, 8: 184. PMC 5306281 . PMID 28261241. doi:10.3389/fpls.2017.00184. 
  29. ^ Golicz AA, Batley J, Edwards D. Towards plant pangenomics. Plant Biotechnol J. November 2015, 14 (4): 1099–1105. PMID 26593040. doi:10.1111/pbi.12499.