基因
基因(英语:gene),在生物学中是指“携带遗传信息的基本物质单位”(基本遗传单位)。而自从确定遗传信息的分子载体为核酸后,基因即指能够遗传且具功能性的一段DNA或RNA序列,详细来说,其为DNA或RNA大分子内一段编码基因产物(RNA或蛋白质)的合成的核苷酸序列。
弄清其序列本身的过程叫基因测序。基因的结构由增强子、启动子及蛋白编码序列等组成,即基因产物可以是蛋白质(蛋白质编码基因)及RNA,从而控制生物个体的性状(差异)表现。在一个个体当中所有的基因总和叫基因组。在一个物种中所有等位基因的总合叫基因库。在大多数真核生物中,基因分为细胞核基因及线粒体基因,绿色植物的叶绿体也含有独立于细胞核的叶绿体基因组。人类约有两万至两万五千个基因。[1]
在真核生物中,染色体在体细胞中是成对存在的。每条染色体上都带有一定数量的基因。一个基因在细胞有丝分裂时有两个对列的位点,称为等位基因,分别来自父与母。依所携带性状的表现,又可分为显性基因和隐性基因。
一般来说,同一生物体中的每个细胞体都含有相同的基因(除了已经分化的免疫细胞),但并不是每个细胞中的所有基因携带的遗传信息都会被表现出来。控制基因表达的因素分为传统的遗传学(增强子,启动子序列相关)因素及表观遗传学(DNA甲基化,组蛋白乙酰化和脱乙酰化及RNA干扰相关)因素。职司不同功能的细胞或不同的细胞类型中,活化而表现的基因也不同。在某一细胞类型当中所有被表达的基因叫转录组,所有编码蛋白质的基因叫蛋白质组。通过即时聚合酶链式反应或染色质免疫沉淀-测序可得到转录组及蛋白质组的信息。用电脑处理基因序列的学科叫生物信息学。
人类基因组计划(human genome project, HGP)是一项规模宏大,跨国跨学科的生物信息学项目。其宗旨在于测定组成人类染色体(指单倍体)的30亿个碱基对形成的核苷酸序列,从而绘制人类基因组图谱,并且识别其载有的基因,达到破译人类遗传信息的最终目的。该计划起始于公元1990年,并于公元2000年完成。
“基因(gene)”一词由丹麦植物学家、植物生理学家和遗传学家威廉·约翰森于1909年提出。[2]它的灵感来自古希腊语:γόνος(gonos),意味着后代和繁殖。
历史
早期对于遗传物质的臆测
关于遗传的物质基础,科学家早就有所臆测,但在18世纪之前人们对基因遗传只有非常有限的知识。1830年左右,基因遗传“genetic”这个单词才在英语中出现。当时农业已经非常发达,通过遗传知识对牲畜育种已经开始出现,英国有个叫罗伯特·贝克韦尔绵羊育种专家培育出了一种叫莱斯特绵羊新的品种,莱贾斯特羊比以前的品种生长更快,同时可以产更多的肉。由于科学家很少,人们对遗传的很多知识是来自于牲畜育种。
1864年,英国哲学家赫伯特·史宾赛曾提出“生理单位”说。1868年,达尔文将其称为“微芽”,1884年瑞士植物学家冯内格列称之为“异胞质”,1889年荷兰学者雨果·德弗里斯称为“泛生子”。1883年德国魏斯曼称之为“种质”,并指明生殖细胞中的染色体便是种质,认为种质是遗传的,体质则不遗传,种质影响体质,而体质不影响种质。这在理论上为重新发现和广为人们接受的孟德尔遗传定律铺平了道路。
概念的提出
遗传学的奠基人奥地利人孟德尔,在布尔诺(今属捷克)的奥古斯丁教派修道院的后院里工作8年,于1865年2月的奥地利自然科学学会会议上报告了自己进行的植物杂交研究结果,第二年在奥地利自然科学学会年刊上发表了著名的《植物杂交试验》论文,阐述了遗传学的两项基本规律——基因的分离定律和基因的自由组合定律。文中指出,生物的所有性状都是通过遗传因子来传递的,遗传因子是一些独立的遗传单位。此理论把可观察的遗传性状和控制它的内在的遗传因子区分开来,遗传因子于是作为基因的雏形名词诞生了。基因的存在最早是由他在19世纪推论出来的,而不具有分子生物学的观察基础。在达尔文发表进化论后不久,孟德尔试图通过对豌豆进行试验来解释该理论。但是直到19世纪末他的研究才被人们所重视。虽然孟德尔还不知道遗传因子是以怎样的方式存在,也不了解它的结构,但确实为现代基因概念的产生奠定了基础。
可以说,遗传因子实际上是孟德尔根据其实验结果所假想的信息载体,从那时起遗传学家便踏上了寻找基因实体的艰难历程。1903年沃尔特·萨顿和鲍维里两人注意到在杂交试验中遗传因子的行为与减数分裂和受精中染色体的行为非常吻合,他们于是作出“遗传因子位于染色体上”的“萨顿—鲍维里假想”:他们根据各自的研究,认为孟德尔的“遗传因子”与配子形成和受精过程中的染色体的传递行为具有平行性,并提出了遗传的染色体学说,认为孟德尔所假想的遗传因子就位于染色体上,即染色体是遗传物质的载体,第一次把遗传物质和染色体联系起来。这种假想可以圆满地解释孟德尔的两大遗传规律,在日后的科学实验中也得到了证实。1909年丹麦遗传学家威廉·约翰森(1859~1927)在《精密遗传学原理》一书中提出“基因”概念,以此来替代孟德尔假定的“遗传因子”。从此,“基因”一词一直在遗传学中被沿用至今。约翰逊还提出了“基因型”与“表现型”这两个含义不同的术语,初步阐明了基因与性状的关系。不过此时的基因仍然是一个未经观察佐证的,仅靠逻辑推理得出的概念。
“gene”的中文译名“基因”同时是音译和意译,翻译之巧妙十分难得,应该是优生学家潘光旦于1930年代翻译的[3][4][5]。
结构和功能的探索
自1900年孟德尔定律重新发现后,“基因如何控制性状”的问题引起了许多遗传学家的浓厚兴趣。经过他们的努力,又产出了一连串重要成果。
美国实验胚胎学家、遗传学家托马斯·亨特·摩尔根和他的学生们于1908年前后开始利用果蝇作了许多实验。他在1910年通过果蝇眼球颜色突变性状的遗传实验发现了伴性遗传现象,第一次揭示出一种或多种遗传特性与某一特定染色体的明确联系;他和他的同事们进一步透过多次的果蝇杂交实验发现了遗传学的第三个基本规律——连锁互换规律,从而继承并发展了孟德尔的遗传学说。他们为遗传染色体学说提供了更充分、直接、可靠的证据,并认为染色体是盂德尔式遗传性状传递机制的物质基础。1926年托马斯的钜著《基因论》出版,建立了著名的基因学说,他并绘制了果蝇的基因位置图,首次完成当时最新的基因概念的描述,即基因以直线形式排列,它决定着一个对应的性状,而且能发生突变并随着染色体同源节段的互换而交换。
摩尔根等人还认为,基因是遗传的功能单位,它能产生特定的表型效应;基因又是一个独立的结构单位。在同源染色体之间可以发生基因的互换,但交换只能发生在基因之间而不是发生在基因之内;基因可以发生突变,由一个等位形式变为另一等位形式,因而基因又是突变单位。这就是20世纪40年代以前流行的所谓“功能、交换、突变”三位一体的基因概念。这种认识把基因与染色体联系起来,说明了基因的物质性,基因存在的场所及排列方式,基因从此不再是一个抽象的概念。当然这时人们仍然不了解基因的化学本质以及基因是如何控制生物性状的。
从20世纪40年代起,人们开始注意基因与性状的关系,即开始研究基因如何控制性状的问题,1941年,比德尔和塔特姆以红色链抱霉为材料进行生化遗传研究。他们通过诱变获得了多种氨基酸和维生素的营养缺陷突变体。这些突变基因不能产生某种酶,或只产生有缺陷的酶。(例如,有一株突变体不能合成色氨酸是由于它不能产生色氨酸合成酶。)于是,研究者提出了“一个基因一种酶”的假说,认为基因对性状的控制是通过控制酶的合成来实现的。这一假说在20世纪50年代得到充分验证,后来发现有些蛋白质不只由一种肽链组成,如血红蛋白和胰岛素,不同肽链由不同基因编码,因而在1941年比德尔和塔特姆提出一个基因一个酶的理论,证明基因通过它所控制的酶,决定着代谢中的生化反应步骤,进而决定生物性状。又提出了“一个基因一条多肽链”的假设。“一个基因一种酶”和“一个基因一条多肽链”理论的提出,大大促进了分子遗传学的发展,人们迫切期望能厘清基因的化学结构。1949年鲍林与合作者在研究镰刀型细胞贫血症时推论基因决定着多肽链的氨基酸顺序,如此这般,20世纪40年代末至50年代初,基因是通过控制蛋白质的合成以控制代谢,并决定性状的原理,变得清晰起来。
虽然DNA在细胞核中很早就被发现,但证明其为遗传物质的决定性实验是1944年艾弗里的肺炎双球菌转化实验。他和麦卡蒂等人发表了关于“转化因子”的重要论文,首次用实验明确证实:DNA是遗传信息的载体。1952年赫希和蔡斯进一步证明遗传物质是DNA而不是蛋白质。
这一实验不仅证明了DNA是遗传物质,揭示了遗传物质的化学本质,也大大推动了对核酸的研究。1953年,美国分子生物学家詹姆斯·沃森和英国物理学家佛朗西斯·克里克根据威尔金斯和富兰克林所进行的X射线衍射分析,提出了著名的DNA双螺旋结构模型,进一步说明基因载体就是DNA。进一步的研究证明,基因就是DNA分子的一个区块。每个基因由成百上千个脱氧核苷酸组成,一个DNA分子可以包含几个乃至几千个基因。基因的化学本质和分子结构的确定具有划时代的意义,它为基因的复制、转录、表达和调控等方面的研究奠定了基础,开创了分子遗传学的新纪元。
基因本质的确定为分子遗传学发展拉开了序幕。1955年,美国分子生物学家本泽对大肠杆菌T4噬菌体作了深入研究,揭示了基因内部的精细结构,提出了基因的顺反子(Cistron)概念。本泽把通过顺反实验而发现的,遗传的功能单位称为顺反子,1个顺反子决定一条多肽链,顺反子即是基因。1个顺反子内存在着很多突变位点——突变子,突变子就是改变后可以产生突变型表现型的最小单位。1个顺反子内部存在着很多重组子。重组子就是不能由重组分开的基本单位。理论上每一核苷酸对的改变,就可导致一个突变的产生,每两个核苷酸对之间都可发生交换。这样看来,一个基因有多少核苷酸对就有多少突变子及重组子,突变子就等于重组子。这个学说打破了过去关于基因是突变、重组、决定遗传性状的“三位一体”概念及基因是最小的不可分割的遗传单位的观点,从而认为基因为DNA分子上一段核苷酸顺序,负责着遗传信息传递,一个基因内部仍可划分出若干个起作用的小单位,即可区分成顺反子、突变子和重组子。一个作用子通常决定一种多肽链合成,一个基因包含一个或几个作用子。突变子指基因内突变的最小单位,而重组子为最小的重组合单位,只包含一对核苷酸。以上这些均是基因概念的伟大突破。
关于基因的本质确定后,人们又把研究视线转移到基因传递遗传信息的过程上。在20世纪50年代初人们已懂得基因与蛋白质间似乎存在着相应的联系,但基因中信息怎样传递到蛋白质上这一基因功能的关键课题在20世纪60年代至20世纪70年代才得以解决。从1961年开始,尼伦伯格和科拉纳等人逐步搞清了基因以核苷酸三联体为一组编码氨基酸,并在1967年破译了全部64个遗传密码,这样把核酸密码和蛋白质合成联系起来。然后,沃森和克里克等人提出的“中心法则”更加明确地揭示了生命活动的基本过程。1970年霍华德·马丁·特明以在劳斯肉瘤病毒内发现逆转录酶这一成就进一步发展和完善了“中心法则”,至此,遗传信息传递的过程已较清晰地展示在人们的眼前。过去人们对基因的功能理解是单一的即作为蛋白质合成的模板。但是1961年法国弗朗索瓦·雅各布和雅克·莫诺的研究成果,又大大扩大了人们关于基因功能的视野。他们在研究大肠杆菌乳糖代谢的调节机制中发现了有些基因不起合成蛋白质模板作用,只起调节或操纵作用,提出了操纵子学说。从此根据基因功能把基因分为结构基因、调节基因和操纵基因。
结构基因和调控基因:根据操纵子学说,并不是所有的基因都能为肽链进行编码。于是便把能为多肽链编码的基因称为结构基因,包括编码结构蛋白和酶蛋白的基因,也包括编码阻遏蛋白或激活蛋白的调节基因。有些基因只能转录而不能转译,如tRNA基因和rRNA基因。还有些DNA区块,其本身并不进行转录,但对其邻近的结构基因的转录起控制作用,被称为启动基因和操纵基因。启动基因、操纵基因与其控制下的一系列结构基因组成一个功能单位叫做操纵子(operon)。就其功能而言,调节基因、操纵基因和启动基因都属于调控基因。这些基因的发现,大大拓宽了人们对基因功能及相互关系的认识。
断裂基因:20世纪70年代中期,法国生物化学家查姆帮(Chamobon)和波盖特(Berget)在研究鸡卵清蛋白基因的表达中发现,细胞内的结构基因并非全部由编码序列组成,而是在编码序列中间插入无编码作用的碱基序列,这类基因被称为间隔或断裂基因。这一发现于1977年被英国的查弗里斯和荷兰的弗兰威尔在研究兔β-球蛋白结构时所证实。1978年,生化学家沃特·吉尔伯特提出基因是一个转录单位的设想,他认为基因是一个DNA序列的嵌合体,同时包含两个区块:一个区块将被表达并存在于成熟的mRNA中,称为“外显子”;一个区块由虽然也同时被表达,但将在成熟mRNA中被删除,称为“内含子”。近年来的研究发现,原核生物的基因序列一般是连续的,在一个基因的内部几乎不含“内含子”,而真核生物中绝大多数基因都是由不连续DNA序列组成的断裂基因。断裂基因的表达过程是:整个基因先由DNA转录成前信使RNA,其中的内含序列会被一种称为“剪接体”的RNA/蛋白质复合物所切除,两端再相互连接成一条连续的核酸顺序,以形成成熟的mRNA。DNA分子断裂基因的存在为基因功能的展现赋予了更大的潜力。
重叠基因:长期以来,人们一直认为在同一段DNA序列内是不可能存在重叠的读码结构的。1978年,弗雷德里克·桑格在研究分析φX174噬菌体的核苷酸序列时,也发现由5375个核苷酸组成的单链DNA所包含的10个基因中有几个基因具有不同程度的重叠,但是这些重叠的基因具有不同的读码框架。以后在噬菌体G4、MS2和SV40中都发现了重叠基因。基因的重叠性使有限的DNA序列包含了更多的遗传信息,是生物对它的遗传物质经济而合理的利用。
假基因(伪基因):1977年,G·Jacp在对非洲爪赡5SrRNA基因簇的研究后提出了假基因的概念,这是一种核苷酸序列同其相应的正常功能基因基本相同,但却不能合成出功能蛋白质的失活基因。假基因的发现是真核生物应用重组DNA技术和序列分析的结果。现已在大多数真核生物中发现了假基因,如Hb的假基因、干扰素、组蛋白、α球蛋白和β球蛋白、肌动蛋白及人的rRNA和tRNA基因均含有假基因。由于假基因不工作或无效工作,故有人认为假基因,相当人的痕迹器官,或作为后补基因。
移动基因:1950年,美国遗传学家麦克林托卡在玉米染色体组中首先发现移动基因。她发现玉米染色体上有一种称为Ds的控制基因会改变位置,同时引起染色体断裂,使其离开或插入部位邻近的基因失活或恢复恬性,从而导致玉米籽粒性状改变。这一研究当时并没有引起重视。20世纪60年代未,英国生物化学家夏皮罗和前西德生物化学家西特尔分别在细菌中发现一类称为插入顺序的可移动位置的遗传因子,20世纪70年代早期又发现细菌质粒的某些抗药性可移动的基因,到20世纪80年代已发现这类基因至少有20种。20世纪90年代之前,科学家终于用实验证明了麦克林托卡的观点,移动基因不仅能在个体的染色体组内移动,并能在个体间甚至种间移动。现已了解到真核细胞中普遍存在移动基因。基因移动性的发现不仅打破了遗传的DNA恒定论,而且对于认识肿瘤基因的形成和表达,以及生物演化中信息量的扩大等研究工作也将提供新的启示和线索。
概念的进一步发展
70年代后,基因的概念随着多学科渗透和实验手段日新月异又有突飞猛进的发展,主要有以下几个方面:
- 基因具重叠性。1977年桑格领导的研究小组,根据大量研究事实绘制了共含有5375个核苷酸的ΦX174噬菌体DNA碱基顺序图,第一次揭示了遗传的一种经济而巧妙的编排——B和E基因核苷酸顺序分别与A和D基因的核苷酸顺序的一部分互相重叠。当然它们各有一套读码结构,且基因末端密码也有重叠现象(A基因终止密码子TGA和C基因起始密码子ATG重叠2个核苷酸;D基因的终止密码子TAA与J基因起始密码子ATG互相重叠1个核苷酸,顺序为TAATG)。
- 内含子和外显子。人们在研究小鸡卵清蛋白基因时发现其转录形成的mRNA只有该基因长度的1/4,其原因是基因中一些间隔序列的转录物在RNA成熟过程中被切除了。这些间隔序列叫内含子,基因中另一些被转录形成RNA的序列叫外显子。小鸡的卵清蛋白基因中至少含7个内含子。因而从基因转录效果看,基因由外显子和内含子构成。
- 管家基因和奢侈基因。具有相同遗传信息的同一个体细胞间其所利用的基因并不相同,有的基因活动是维持细胞基本代谢所必须的,而有的基因则在一些分化细胞中活动,这正是细胞分化、生物发育的基础。前者称为管家基因,而后者被称为奢侈基因。
- 基因的游动性。早在20世纪40年代美国遗传学家麦克林托克在玉米研究中发现“转座子”,直至1980年夏皮罗等人证实了可移位的遗传基因存在,说明某些基因具有游动性。为此,这位“玉米夫人”荣获了1983年度诺贝尔生理学或医学奖。
突变
基因突变和许多疾病的发生有涉,如与肿瘤发生有涉的癌基因和肿瘤抑制基因。
从染色体的角度来看有:
|
以功能分类 :
|
以突变原理分类:
|
与脱氧核苷酸的牵连
- 基因的基本组成单位是脱氧核苷酸。
- 基因中脱氧核苷酸的排列顺序称为遗传信息。
- 基因中脱氧核苷酸的排列顺序的多样性决定了基因的多样性。
与DNA的牵连
- 基因是有遗传效应的DNA片段,每个DNA分子有许多个基因。一个DNA分子上的碱基总数大于该DNA分子上所有基因上的碱基数之和。
- 基因具有遗传效应是指其能控制生物的性状。基因是控制生物性状的结构和功能的基本单位,特定的基因控制特定的性状。
与染色体的牵连
- 基因在染色体上呈线性排列。
- 染色体是基因的主要载体,但不是唯一载体,如线粒体,叶绿体中也有少量的DNA,也是基因的载体。
注释
- ^ Eukaryotic Genome Complexity. Nature. [2021-07-21]. (原始内容存档于2021-08-14).
- ^ Johannsen, W. (1905). Arvelighedslærens elementer ("The Elements of Heredity". Copenhagen). Rewritten, enlarged and translated into German as Elemente der exakten Erblichkeitslehre (Jena: Gustav Fischer, 1909; Scanned full text. (页面存档备份,存于互联网档案馆)
- ^ 存档副本 (PDF). [2023-05-23]. (原始内容存档 (PDF)于2019-07-12).
- ^ 存档副本. [2023-05-23]. (原始内容存档于2022-10-07).
- ^ https://www.shobserver.com/sgh/detail?id=1018235
参考文献
- 主要书籍
- Alberts B, Johnson A, Lewis J, Raff M, Roberts K, Walter P. Molecular Biology of the Cell Fourth. New York: Garland Science. 2002 [2020-02-12]. ISBN 978-0-8153-3218-3. (原始内容存档于2017-09-27). – A molecular biology textbook available free online through NCBI Bookshelf.
延伸阅读
- Watson JD, Baker TA, Bell SP, Gann A, Levine M, Losick R. Molecular Biology of the Gene 7th. Benjamin Cummings. 2013. ISBN 978-0-321-90537-6.
- Dawkins R. The Selfish Gene. Oxford University Press. 1990. ISBN 978-0-19-286092-7. Google Book Search; first published 1976.
- Ridley M. Genome: The Autobiography of a Species in 23 Chapters. Fourth Estate. 1999. ISBN 978-0-00-763573-3.
- Brown, T. Genomes 2nd. New York: Wiley-Liss. 2002 [2020-02-12]. ISBN 978-0-471-25046-3. (原始内容存档于2020-11-06).
参见
外部链接
- Comparative Toxicogenomics Database(页面存档备份,存于互联网档案馆)
- DNA From The Beginning – a primer on genes and DNA(页面存档备份,存于互联网档案馆)
- Entrez Gene – a searchable database of genes (页面存档备份,存于互联网档案馆)
- IDconverter – converts gene IDs between public databases (页面存档备份,存于互联网档案馆)
- iHOP – Information Hyperlinked over Proteins
- TranscriptomeBrowser – Gene expression profile analysis
- The Protein Naming Utility, a database to identify and correct deficient gene names
- Genes (页面存档备份,存于互联网档案馆) – an Open Access journal
- IMPC (International Mouse Phenotyping Consortium) (页面存档备份,存于互联网档案馆) – Encyclopedia of mammalian gene function
- Global Genes Project美国国会图书馆的存档,存档日期2013-09-20 – Leading non-profit organization supporting people living with genetic diseases
- ENCODE threads Explorer(页面存档备份,存于互联网档案馆) Characterization of intergenic regions and gene definition. Nature