遗传密码

基因序列遗传信息翻译成为蛋白质过程中,以三个核苷酸为一组的密码子转译为一个特定氨基酸的对应规则

遗传密码[1][2](Genetic code)又称遗传编码,是遗传信息的传递规则,将DNAmRNA序列以三个核苷酸为一组的“密码子(codon)”转译蛋白质氨基酸序列,以用于蛋白质合成。几乎所有的生物都使用同样的遗传密码,称为“标准遗传密码”;即使是非细胞结构的病毒,它们也是使用标准遗传密码。有些具感染性的致病因子,使用一些稍微不同的遗传密码,如朊毒体以蛋白质为遗传密码。密码子简并性是遗传密码的突出特征。[3]

遗传密码规则,核碱基序列编码所对应的氨基酸
RNA分子上一系列的密码子(codons),每个密码子由3个含氮碱基,对应单个氨基酸。核苷酸使用缩写字母A、U、G和C。信使RNA采用U(尿嘧啶)代替DNA采用T(胸腺嘧啶)。此信使RNA分子将责成一个核糖体根据这个密码合成的蛋白质

破解历史

 
遗传密码

自从发现了DNA的结构,科学家便开始致力研究有关制造蛋白质的秘密。伽莫夫通过计算指出需要以三个核酸一组才能为20个氨基酸编码[4]。1961年,弗朗西斯·克里克T4噬菌体的某个基因中增加或删除碱基对。以该基因最终合成蛋白的情况。证明“以三个碱基对编码一个氨基酸”,以及遗传密码有固定起点,且以非重叠无分隔符形式阅读的特点。美国国家卫生院J·海因里希·马特伊英语J. Heinrich Matthaei马歇尔·沃伦·尼伦伯格无细胞系统英语Cell-free system环境下,把一条只由尿嘧啶(U)组成的RNA转释成一条只有苯丙氨酸(Phe)的多肽,由此破解了首个密码子(UUU -> Phe[5]。随后哈尔·葛宾·科拉纳破解了其它密码子,接著罗伯特·W·霍利发现了负责转录过程的tRNA。1968年,科拉纳、霍利和尼伦伯格分享了诺贝尔生理学或医学奖

基因组的表达

一个生物体携带的遗传信息-即基因组-被记录在DNA或RNA分子中,分子中每个有功能的单位被称作基因。每个基因均是由一连串单核苷酸组成。每个单核苷酸均由碱基戊糖(即五碳糖,DNA中为脱氧核糖,RNA中为核糖)和磷酸三部分组成。碱基不同构成了不同的单核苷酸。组成DNA的碱基有腺嘌呤(A),鸟嘌呤(G),胞嘧啶(C)及胸腺嘧啶(T)。组成RNA的碱基以尿嘧啶(U)代替了胸腺嘧啶(T)。三个单核苷酸形成一组密码子,而每个密码子代表一个氨基酸或停止讯号。

制造蛋白质的过程中,基因先被从DNA转录为对应的RNA范本,即信使RNA(mRNA)。接下来在核糖体转移RNA(tRNA)以及一些的作用下,由该RNA范本转译成为氨基酸组成的链(多肽),然后经过转译后修饰形成蛋白质。详情参阅转译

因为密码子由三个核苷酸组成,故一共有43=64种密码子。例如,RNA序列UAGCAAUCC包含了三个密码子:UAG,CAA和UCC。这段RNA编码代表了长度为3个氨基酸的一段蛋白质序列。(DNA也有类似的序列,但是以T代替了U)。

标准遗传密码如下表所示:由3个碱基对应到氨基酸的密码子表以及由氨基酸对应到3个碱基的反密码子表。

密码子表

RNA密码子表

氨基酸生化性质 极性 极性 终止密码子
标准遗传密码
碱基1 碱基2 碱基3
U C A G
U UUU (Phe/F)

苯丙氨酸

UCU (Ser/S)

丝氨酸

UAU (Tyr/Y)

酪氨酸

UGU (Cys/C)

半胱氨酸

U
UUC UCC UAC UGC C
UUA (Leu/L)

亮氨酸

UCA UAA[B] 终止赭石 UGA[B] 终止蛋白石 A
UUG UCG UAG[B] 终止琥珀 UGG (Trp/W)色氨酸 G
C CUU CCU (Pro/P)

脯氨酸

CAU (His/H)

组氨酸

CGU (Arg/R)

精氨酸

U
CUC CCC CAC CGC C
CUA CCA CAA (Gln/Q)

谷氨酰胺

CGA A
CUG CCG CAG CGG G
A AUU (Ile/I)

异亮氨酸

ACU (Thr/T)

苏氨酸

AAU (Asn/N)

天冬酰胺

AGU (Ser/S)

丝氨酸

U
AUC ACC AAC AGC C
AUA ACA AAA (Lys/K)

赖氨酸

AGA (Arg/R)

精氨酸

A
AUG[A] (Met/M)

甲硫氨酸

ACG AAG AGG G
G GUU (Val/V)

缬氨酸

GCU (Ala/A)

丙氨酸

GAU (Asp/D)

天冬氨酸

GGU (Gly/G)

甘氨酸

U
GUC GCC GAC GGC C
GUA GCA GAA (Glu/E)

谷氨酸

GGA A
GUG GCG GAG GGG G
A 密码子AUG同时编码甲硫氨酸并作为起始点:在信使RNA的编码区里,首个ATG的出现标志着蛋白质翻译的开始。[6]
B ^ ^ ^ 标示终止密码子为琥珀、赭石和蛋白石的历史原因可在悉尼·布伦纳(Sydney Brenner)的自传[7]和鲍勃·埃德加(Bob Edgar)的一篇历史性文章中找到。[8]
反向密码子表(使用IUPAC符号英语nucleic acid notation缩写)
氨基酸 密码子 缩写 氨基酸 密码子 缩写
Ala/A GCU、GCC、GCA、GCG GCN Leu/L UUA、UUG、CUU、CUC、CUA、CUG YUR、CUN
Arg/R CGU、CGC、CGA、CGG、AGA、AGG CGN、MGR Lys/K AAA、AAG AAR
Asn/N AAU、AAC AAY Met/M AUG
Asp/D GAU、GAC GAY Phe/F UUU、UUC UUY
Cys/C UGU、UGC UGY Pro/P CCU、CCC、CCA、CCG CCN
Gln/Q CAA、CAG CAR Ser/S UCU、UCC、UCA、UCG、AGU、AGC UCN、AGY
Glu/E GAA、GAG GAR Thr/T ACU、ACC、ACA、ACG ACN
Gly/G GGU、GGC、GGA、GGG GGN Trp/W UGG
His/H CAU、CAC CAY Tyr/Y UAU、UAC UAY
Ile/I AUU、AUC、AUA AUH Val/V GUU、GUC、GUA、GUG GUN
起始 AUG 终止 UAA、UGA、UAG UAR、URA

DNA密码子表

DNA密码子表与RNA密码子表基本相同,除了使用T来替代U

技术细节

起始和终止密码子

蛋白质的转译从初始化密码子(起始密码子)开始,但亦需要适当的初始化序列和起始因子才能使mRNA和核糖体结合。最常见的起始密码子为AUG,其同时编码的氨基酸在细菌为甲酰甲硫氨酸,在真核生物为甲硫氨酸,但在个别情况其它一些密码子也具有起始的功能。

在经典遗传学中,终止密码子各有名称:UAG为琥珀(amber),UGA为蛋白石(opal),UAA为赭石(ochre)。这些名称来源于最初发现到这些终止密码子的基因的名称。终止密码子使核糖体和释放因子结合,使多肽核糖体分离而结束转译的程式。另外,在哺乳动物的线粒体中,AGA和AGG也充当终止密码子。

密码子简并性

大部分密码子具有简并性,即两个或者多个密码子编码同一氨基酸。简并的密码子通常只有第三位元碱基不同,例如,GAA和GAG都编码谷氨酰胺。如果密码子前两位相同,而且不管密码子的第三位为哪种核苷酸,都编码同一种氨基酸,则称之为四重简并密码子(fourfold degenerate codons);如果三位中的某一位有两种核苷酸使该密码子编码同一种氨基酸,则称之为二重简并密码子(twofold degenerate codons),一般第三位上两种等价的核苷酸同为嘌呤(A/G,或R)或者嘧啶(C/T,或Y)。只有两种氨基酸仅由一个密码子编码,一个是甲硫氨酸,由AUG编码,同时也是起始密码子;另一个是色氨酸,由UGG编码。

遗传密码的这些性质可使基因更加耐受点突变。例如,四重简并密码子可以容忍密码子第三位元的任何变异;二重简并密码子使三分之一可能的第三位的变异不影响蛋白质序列。由于转换变异(嘌呤变为嘌呤或者嘧啶变为嘧啶)比颠换变异(嘌呤变为嘧啶或者嘧啶变为嘌呤)的可能性更大,因此二重简并密码子也具有很强的对抗突变的能力。不影响氨基酸序列的突变称为沉默突变​(英语

简并性的出现是由于tRNA反密码子的第一位碱基可以和mRNA构成摆动碱基对,常见的情况为反密码子上的次黄嘌呤(I),以及和密码子形成非标准的U-G配对。

另一种有助对抗点突变的情况,是NUN(N代表任何核苷酸)倾向于代表疏水性氨基酸,故此即使出现突变,仍有较大机会维持蛋白质的亲水度,减低致命破坏的可能。

阅读框

“密码子”是由阅读的起始位点决定的。例如,一段序列GGGAAACCC,如果由第一个位置开始读,包括3个密码子GGG,AAA和CCC。如果从第二位开始读,包括GGA和AAC(忽略不完整的密码子)。如果从第三位开始读,则为GAA和ACC。故此每段序列都包括多个阅读框,每个都能产生不同的氨基酸序列(在上例中,相应为Gly-Lys-Pro,Gly-Asp,和Glu-Thr)。而因为DNA的双螺旋结构,每段DNA实际上有六个阅读框。 实际的框架是由起始密码子确定,通常是mRNA序列上第一个出现的AUG。

破坏阅读框架的变异(例如,插入或删除1个或2个核苷酸)称为阅读框变异,通常会严重影响到蛋白质的功能,故此并不常见,因为它们通常不能在演化中存活下来。

非标准的遗传密码

虽然遗传密码在不同生命之间有很强的一致性,但亦存在非标准的遗传密码。在有“细胞能量工厂”之称的线粒体中,便有和标准遗传密码数个相异的之处,甚至不同生物的线粒体有不同的遗传密码。支原体会把UGA转译为色氨酸。纤毛虫则把UAG(有时候还有UAA)转译为谷氨酰胺(一些绿藻也有同样现象),或把UGA转译为半胱氨酸。一些酵母会把GUG转译为丝氨酸。在一些罕见情况,一些蛋白质会有AUG以外的起始密码子。

真菌、原生生物和人以及其它动物的粒线体中的遗传密码与标准遗传密码的差异,主要变化如下:

密码子 通常的作用 例外的作用 所属的生物
UGA 中止编码 色氨酸编码 人、牛、酵母线粒体,支原体(Mycoplasma)基因组,如Capricolum
UGA 中止编码 半胱氨酸编码 一些纤毛虫(ciliate)细胞核基因组,如游纤虫属(Euplotes)
UGA 中止编码 硒半胱氨酸编码 人,大鼠,小鼠等哺乳体系
AGR 精氨酸编码 中止编码 大部分动物线粒体,脊椎动物线粒体
AGA 精氨酸编码 丝氨酸编码 果蝇线粒体
AUA 异亮氨酸编码 蛋氨酸编码 一些动物和酵母线粒体
UAA 中止编码 谷氨酰胺编码 草履虫、一些纤毛虫(ciliate)细胞核基因组,如嗜热四膜虫(ThermophAilus tetrahymena
UAG 中止编码 谷氨酸编码 草履虫核细胞核基因组
UAG 中止编码 吡咯赖氨酸编码 甲烷八叠球菌(Methanosarcina barkeri)核基因组,表达转甲基酶(methyltransferase)
GUG 缬氨酸编码 丝氨酸编码 假丝酵母核基因组
AAA 赖氨酸编码 天冬氨酸编码 一些动物的线粒体,果蝇线粒体
CUG 亮氨酸编码 丝氨酸编码 白色念珠菌(Candida albicans)等酵母的细胞核基因组
CUN 亮氨酸编码 苏氨酸编码 酵母线粒体

按信使RNA的序列,在一些蛋白质里停止密码子会被翻译成非标准的氨基酸,例如UGA转译为硒半胱氨酸和UAG转译为吡咯赖氨酸,随著对基因组序列加深了解,科学家可能还会发现其它非标准的转译方式,以及其它未知氨基酸在生物中的应用。

遗传密码的起源

除了少数的不同之外,地球上已知生物的遗传密码均非常接近;这显示遗传密码应在生命演化的历史中很早期就出现,并且证明了所有生物都源自共同祖先

现有的证据表明遗传密码的设定并非是随机的结果,对此有以下的可能解释1:

  • 最近一项研究显示,一些氨基酸与它们相对应的密码子有选择性的化学结合力2,这显示现在复杂的蛋白质制造过程可能并非一早存在,最初的蛋白质可能是直接在核酸上形成。
  • 原始的遗传密码可能比今天简单得多,随著生命演化制造出新的氨基酸再被利用而令遗传密码变得复杂。虽然不少证据证明这观点3,但详细的演化过程仍在探索之中4,5

摇摆特性

1966年,弗朗西斯·克里克提出了摆动假说(英文:wobble hypothesis)。即一组密码子可对应多个反密码子。因为第三对碱基对有时不遵守配对原则,称为摇摆碱基对[5]

摇摆特性的碱基配对如下:

密码子第三对碱基 反密码子第一对碱基
G C
U A
A、G U
C、U G

摆动假说现已被多方实验证明。[5]

参考资料

其它参考资料

网路上有很多有关本题目的资料,由美国国家卫生院提供NCBI Bookshelf

参考文献

  1. ^ 存档副本. [2021-10-07]. (原始内容存档于2021-10-07). 
  2. ^ 存档副本. [2021-10-07]. (原始内容存档于2021-10-07). 
  3. ^ Shu, Jian-Jun. A new integrated symmetrical table for genetic codes. BioSystems. January 2017, 151: 21–26. Bibcode:2017arXiv170303787S. PMID 27887904. arXiv:1703.03787 . doi:10.1016/j.biosystems.2016.11.004. 
  4. ^ Wang, Liming,; 王立铭,. Shang di de shou shu dao : ji yin bian ji jian shi = Human gene editing. 上帝的手术刀——基因编辑简史 Di 1 ban. Hangzhou. ISBN 978-7-213-07975-7. OCLC 1000575553. 
  5. ^ 5.0 5.1 5.2 Paolella, Peter. 分子生物学导论. 分子生物学导论. Qing hua ta xue chu ban she. 2002. ISBN 7-302-05095-3. OCLC 298594848. 
  6. ^ Nakamoto T. Evolution and the universality of the mechanism of initiation of protein synthesis. Gene. March 2009, 432 (1–2): 1–6. PMID 19056476. doi:10.1016/j.gene.2008.11.001. 
  7. ^ Brenner S. A Life in Science (2001) Published by Biomed Central Limited ISBN 0-9540278-0-9 see pages 101-104
  8. ^ The genome of bacteriophage T4: an archeological dig. Genetics. 2004, 168 (2): 575–82. PMC 1448817 . PMID 15514035. 

相关条目

外部链接