Quel est le code génétique. Le code génétique comme moyen d'enregistrer des informations héréditaires

Quel est le code génétique.  Le code génétique comme moyen d'enregistrer des informations héréditaires
Quel est le code génétique. Le code génétique comme moyen d'enregistrer des informations héréditaires

CODE GÉNÉTIQUE, un procédé d'enregistrement d'informations héréditaires dans des molécules d'acides nucléiques sous la forme d'une séquence de nucléotides formant ces acides. Une certaine séquence de nucléotides dans l'ADN et l'ARN correspond à une certaine séquence d'acides aminés dans les chaînes polypeptidiques des protéines. Il est d'usage d'écrire le code en utilisant des lettres majuscules de l'alphabet russe ou latin. Chaque nucléotide est désigné par la lettre qui commence le nom de la base azotée qui fait partie de sa molécule : A (A) - adénine, G (G) - guanine, C (C) - cytosine, T (T) - thymine ; dans l'ARN, au lieu de la thymine, l'uracile est U (U). Chacun est codé par une combinaison de trois nucléotides - un triplet ou codon. En bref, la manière de transférer l'information génétique est résumée dans le soi-disant. le dogme central de la biologie moléculaire : ADN ` ARN f protéine.

Dans des cas particuliers, l'information peut être transférée de l'ARN à l'ADN, mais jamais de la protéine aux gènes.

La réalisation de l'information génétique s'effectue en deux étapes. Dans le noyau cellulaire, l'information ou la matrice, l'ARN (transcription) est synthétisé sur l'ADN. Dans ce cas, la séquence nucléotidique de l'ADN est "réécrite" (recodée) dans la séquence nucléotidique de l'ARNm. Ensuite, l'ARNm passe dans le cytoplasme, se fixe au ribosome et sur celui-ci, comme sur une matrice, une chaîne protéique polypeptidique est synthétisée (traduction). Les acides aminés à l'aide d'ARN de transfert sont attachés à la chaîne en construction dans une séquence déterminée par l'ordre des nucléotides dans l'ARNm.

À partir des quatre "lettres", vous pouvez créer 64 "mots" différents de trois lettres (codons). Sur les 64 codons, 61 codent pour certains acides aminés et trois sont responsables de l'achèvement de la synthèse de la chaîne polypeptidique. Puisqu'il y a 61 codons pour 20 acides aminés qui composent les protéines, certains acides aminés sont codés par plus d'un codon (ce qu'on appelle la dégénérescence du code). Une telle redondance augmente la fiabilité du code et de l'ensemble du mécanisme de biosynthèse des protéines. Une autre propriété du code est sa spécificité (non ambiguïté) : un codon code pour un seul acide aminé.

De plus, le code ne se chevauche pas - les informations sont lues séquentiellement dans une direction, triplet par triplet. La propriété la plus étonnante du code est son universalité : il est le même pour tous les êtres vivants - des bactéries à l'homme (à l'exception du code génétique des mitochondries). Les scientifiques y voient une confirmation du concept de l'origine de tous les organismes à partir d'un ancêtre commun.

Décryptage code génétique, c'est-à-dire que la définition de la "signification" de chaque codon et des règles de lecture des informations a été réalisée en 1961-1965. et est considérée comme l'une des réalisations les plus remarquables de la biologie moléculaire.

Le code génétique, exprimé en codons, est un système de codage d'informations sur la structure des protéines, inhérentes à tous les organismes vivants de la planète. Son décodage a pris une décennie, mais le fait qu'il existe, la science l'a compris depuis près d'un siècle. L'universalité, la spécificité, l'unidirectionnalité, et surtout la dégénérescence du code génétique sont d'une grande importance. importance biologique.

Historique de la découverte

Le problème du codage a toujours été un problème clé en biologie. La science s'est déplacée assez lentement vers la structure matricielle du code génétique. Depuis la découverte par J. Watson et F. Crick en 1953 de la structure en double hélice de l'ADN, l'étape de démêler la structure même du code a commencé, ce qui a suscité la foi dans la grandeur de la nature. Structure linéaire protéines et la même structure d'ADN impliquaient la présence d'un code génétique comme correspondance de deux textes, mais écrits en utilisant alphabets différents. Et si l'alphabet des protéines était connu, alors les signes de l'ADN sont devenus un sujet d'étude pour les biologistes, les physiciens et les mathématiciens.

Cela n'a aucun sens de décrire toutes les étapes de la résolution de cette énigme. Une expérience directe, qui a prouvé et confirmé qu'il existe une correspondance claire et cohérente entre les codons de l'ADN et les acides aminés des protéines, a été réalisée en 1964 par C. Janowski et S. Brenner. Et puis - la période de déchiffrement du code génétique in vitro (in vitro) en utilisant les techniques de synthèse protéique dans des structures acellulaires.

Le code entièrement déchiffré d'E. Coli a été rendu public en 1966 lors d'un symposium de biologistes à Cold Spring Harbor (États-Unis). Puis la redondance (dégénérescence) du code génétique a été découverte. Ce que cela signifie est expliqué assez simplement.

Le décodage continue

L'obtention de données sur le décodage du code héréditaire est devenue l'un des événements les plus significatifs du siècle dernier. Aujourd'hui, la science continue d'étudier en profondeur les mécanismes des encodages moléculaires et ses caractéristiques systémiques et une surabondance de signes, qui expriment la propriété de la dégénérescence du code génétique. Une branche d'étude distincte est l'émergence et l'évolution du système de codage du matériel héréditaire. La preuve de la relation entre les polynucléotides (ADN) et les polypeptides (protéines) a donné une impulsion au développement de la biologie moléculaire. Et cela, tour à tour, la biotechnologie, la bio-ingénierie, les découvertes dans l'élevage et la production végétale.

Dogmes et règles

Le dogme principal de la biologie moléculaire est que l'information est transférée de l'ADN à l'ARN messager, puis de celui-ci à la protéine. Dans le sens inverse, la transmission est possible d'ARN à ADN et d'ARN à un autre ARN.

Mais la matrice ou la base est toujours l'ADN. Et toutes les autres caractéristiques fondamentales de la transmission de l'information sont le reflet de cette nature matricielle de la transmission. A savoir, la transmission par voie de synthèse sur la matrice d'autres molécules, qui deviendront la structure de reproduction de l'information héréditaire.

Code génétique

Le codage linéaire de la structure des molécules protéiques s'effectue à l'aide de codons complémentaires (triplets) de nucléotides, dont il n'y en a que 4 (adéine, guanine, cytosine, thymine (uracile)), ce qui conduit spontanément à la formation d'une autre chaîne de nucléotides . même nombre et la complémentarité chimique des nucléotides est la condition principale d'une telle synthèse. Mais lors de la formation d'une molécule protéique, il n'y a pas de correspondance entre la quantité et la qualité des monomères (les nucléotides d'ADN sont des acides aminés protéiques). C'est le code héréditaire naturel - un système d'enregistrement dans la séquence de nucléotides (codons) de la séquence d'acides aminés de la protéine.

Le code génétique a plusieurs propriétés :

  • Tripletité.
  • Sans ambiguïté.
  • Orientation.
  • Sans chevauchement.
  • Redondance (dégénérescence) du code génétique.
  • Polyvalence.

Apportons brève description mettant l'accent sur la signification biologique.

Tripletité, continuité et présence de feux rouges

Chacun des 61 acides aminés correspond à un triplet sémantique (triple) de nucléotides. Trois triplets ne portent pas d'informations sur l'acide aminé et sont des codons stop. Chaque nucléotide de la chaîne fait partie d'un triplet et n'existe pas seul. A la fin et au début de la chaîne de nucléotides responsables d'une protéine, il y a des codons stop. Ils démarrent ou arrêtent la traduction (la synthèse d'une molécule protéique).

Spécificité, non chevauchement et unidirectionnalité

Chaque codon (triplet) code pour un seul acide aminé. Chaque triplet est indépendant du voisin et ne se chevauche pas. Un nucléotide ne peut être inclus que dans un seul triplet de la chaîne. La synthèse des protéines va toujours dans une seule direction, qui est régulée par des codons stop.

Redondance du code génétique

Chaque triplet de nucléotides code pour un acide aminé. Il y a 64 nucléotides au total, dont 61 codent des acides aminés (codons sens), et trois sont sans signification, c'est-à-dire qu'ils ne codent pas un acide aminé (codons stop). La redondance (dégénérescence) du code génétique réside dans le fait que dans chaque triplet des substitutions peuvent être effectuées - radicales (conduisent au remplacement d'acides aminés) et conservatrices (ne changent pas la classe d'acides aminés). Il est facile de calculer que si 9 substitutions peuvent être faites dans un triplet (positions 1, 2 et 3), chaque nucléotide peut être remplacé par 4 - 1 = 3 autres options, alors le nombre total choix les substitutions de nucléotides seront de 61 par 9 = 549.

La dégénérescence du code génétique se manifeste par le fait que 549 variants sont bien plus que nécessaire pour coder des informations sur 21 acides aminés. Dans le même temps, sur 549 variants, 23 substitutions conduiront à la formation de codons stop, 134 + 230 substitutions sont conservatrices et 162 substitutions sont radicales.

Règle de dégénérescence et d'exclusion

Si deux codons ont deux premiers nucléotides identiques et que les autres sont des nucléotides de la même classe (purine ou pyrimidine), alors ils portent des informations sur le même acide aminé. C'est la règle de la dégénérescence ou de la redondance du code génétique. Deux exceptions - AUA et UGA - le premier code pour la méthionine, bien qu'il devrait s'agir d'isoleucine, et le second est un codon stop, bien qu'il aurait dû coder pour le tryptophane.

Le sens de la dégénérescence et de l'universalité

Ce sont ces deux propriétés du code génétique qui ont la plus grande signification biologique. Toutes les propriétés énumérées ci-dessus sont caractéristiques de l'information héréditaire de toutes les formes d'organismes vivants sur notre planète.

La dégénérescence du code génétique a une valeur adaptative, comme la duplication multiple du code d'un acide aminé. De plus, cela signifie une diminution de la signification (dégénérescence) du troisième nucléotide dans le codon. Cette option minimise les dommages mutationnels dans l'ADN, ce qui entraînera des violations flagrantes de la structure des protéines. C'est un mécanisme de défense des organismes vivants de la planète.

CODE GÉNÉTIQUE(grec, genetikos se référant à l'origine ; syn. : code, code biologique, code des acides aminés, code des protéines, code des acides nucléiques) - un système d'enregistrement d'informations héréditaires dans les molécules d'acide nucléique d'animaux, de plantes, de bactéries et de virus en alternant la séquence de nucléotides.

L'information génétique (Fig.) de cellule à cellule, de génération en génération, à l'exception des virus contenant de l'ARN, est transmise par reduplication des molécules d'ADN (voir Réplication). La mise en œuvre de l'information héréditaire de l'ADN dans le processus de la vie cellulaire s'effectue au travers de 3 types d'ARN : information (ARNm ou ARNm), ribosomal (ARNr) et de transport (ARNt), qui sont synthétisés sur l'ADN comme sur une matrice à l'aide de l'enzyme ARN polymérase. Dans le même temps, la séquence de nucléotides dans une molécule d'ADN détermine de manière unique la séquence de nucléotides dans les trois types d'ARN (voir Transcription). L'information d'un gène (voir) codant pour une molécule protéique n'est portée que par l'ARNm. Le produit final de la mise en œuvre de l'information héréditaire est la synthèse de molécules protéiques dont la spécificité est déterminée par la séquence de leurs acides aminés (voir traduction).

Étant donné que seules 4 bases azotées différentes sont présentes dans l'ADN ou l'ARN [dans l'ADN - adénine (A), thymine (T), guanine (G), cytosine (C); dans l'ARN - adénine (A), uracile (U), cytosine (C), guanine (G)], dont la séquence détermine la séquence de 20 acides aminés dans la protéine, le problème de G. à., c'est-à-dire le problème de la traduction d'un alphabet de 4 lettres d'acides nucléiques en alphabet de 20 lettres de polypeptides.

Pour la première fois l'idée de la synthèse matricielle de molécules protéiques avec prédiction correcte Les propriétés d'une matrice hypothétique ont été formulées par N. K. Koltsov en 1928. En 1944, Avery (O. Avery) et al., ont découvert que les molécules d'ADN sont responsables du transfert de traits héréditaires lors de la transformation en pneumocoques. En 1948, E. Chargaff a montré que dans toutes les molécules d'ADN il y a une égalité quantitative des nucléotides correspondants (A-T, G-C). En 1953, F. Crick, J. Watson et Wilkins (M. H. F. Wilkins), sur la base de cette règle et des données de l'analyse par diffraction des rayons X (voir), sont arrivés à la conclusion qu'une molécule d'ADN est un double hélice, constitué de deux brins polynucléotidiques reliés entre eux par des liaisons hydrogène. De plus, seul T peut être localisé contre A d'une chaîne dans la seconde, et seul C contre G. Cette complémentarité conduit au fait que la séquence nucléotidique d'une chaîne détermine de manière unique la séquence de l'autre. La deuxième conclusion importante qui découle de ce modèle est que la molécule d'ADN est capable de s'auto-reproduire.

En 1954, G. Gamow a formulé le problème de G. to. dans son forme moderne. En 1957, F. Crick a exprimé l'hypothèse de l'adaptateur, en supposant que les acides aminés interagissent avec l'acide nucléique non pas directement, mais par des intermédiaires (maintenant connus sous le nom d'ARNt). Dans les années qui suivirent, tous les principaux liens régime général des transferts d'information génétique, initialement hypothétiques, ont été confirmés expérimentalement. En 1957, des ARNm ont été découverts [A. S. Spirin, A.N. Belozersky et al. ; Folkin et Astrakhan (E. Volkin, L. Astrachan)] et ARNt [Hoagland (M.V. Hoagland)] ; en 1960, l'ADN a été synthétisé à l'extérieur de la cellule en utilisant des macromolécules d'ADN existantes comme matrice (A. Kornberg) et la synthèse d'ARN dépendante de l'ADN a été découverte [Weiss (S. V. Weiss) et al.]. En 1961, un système acellulaire a été créé, dans lequel, en présence d'ARN naturel ou de polyribonucléotides synthétiques, des substances de type protéine ont été synthétisées [M. Nirenberg et Matthaei (J.H. Matthaei)]. Le problème de la cognition de G. to. consistait à étudier les propriétés générales du code et à le déchiffrer, c'est-à-dire à découvrir quelles combinaisons de nucléotides (codons) codent pour certains acides aminés.

Les propriétés générales du code ont été élucidées indépendamment de son décodage et principalement avant lui en analysant les schémas moléculaires de formation des mutations (F. Crick et al., 1961 ; N. V. Luchnik, 1963). Ils se résument à ceci :

1. Le code est universel, c'est-à-dire identique, au moins dans l'ensemble, pour tous les êtres vivants.

2. Le code est triplet, c'est-à-dire que chaque acide aminé est codé par un triplet de nucléotides.

3. Le code ne se chevauche pas, c'est-à-dire qu'un nucléotide donné ne peut pas faire partie de plus d'un codon.

4. Le code est dégénéré, c'est-à-dire qu'un acide aminé peut être codé par plusieurs triplets.

5. Les informations sur la structure primaire de la protéine sont lues séquentiellement à partir de l'ARNm, en partant d'un point fixe.

6. La plupart des triplets possibles ont une "signification", c'est-à-dire codent des acides aminés.

7. Sur les trois "lettres" du codon, seules deux (obligatoires) sont d'importance primordiale, tandis que la troisième (facultative) porte beaucoup moins d'informations.

Le décodage direct du code consisterait à comparer la séquence nucléotidique du gène de structure (ou l'ARNm synthétisé sur celui-ci) avec la séquence d'acides aminés de la protéine correspondante. Cependant, cette voie est encore techniquement impossible. Deux autres voies ont été appliquées : la synthèse protéique dans un système acellulaire utilisant des polyribonucléotides artificiels de composition connue comme matrice et l'analyse des modèles moléculaires de formation de mutations (voir). Le premier a apporté des résultats positifs plus tôt et a historiquement joué un grand rôle dans le déchiffrement de G. to.

En 1961, M. Nirenberg et Mattei ont utilisé comme matrice un homo-polymère - un acide polyuridylique synthétique (c'est-à-dire un ARN artificiel de composition UUUU ...) et ont reçu de la polyphénylalanine. Il s'ensuit que le codon de la phénylalanine se compose de plusieurs U, c'est-à-dire que, dans le cas d'un code triplet, il représente UUU. Plus tard, avec des homopolymères, des polyribonucléotides constitués de différents nucléotides ont été utilisés. Dans ce cas, seule la composition des polymères était connue, tandis que la disposition des nucléotides dans ceux-ci était statistique, et donc l'analyse des résultats était statistique et donnait des conclusions indirectes. Assez rapidement, nous avons réussi à trouver au moins un triplet pour les 20 acides aminés. Il s'est avéré que la présence de solvants organiques, un changement de pH ou de température, certains cations, et surtout des antibiotiques, rendent le code ambigu : les mêmes codons commencent à stimuler l'inclusion d'autres acides aminés, dans certains cas un codon commence à coder jusqu'à quatre acides aminés différents. La streptomycine a affecté la lecture des informations à la fois dans les systèmes acellulaires et in vivo, et n'a été efficace que sur les souches bactériennes sensibles à la streptomycine. Dans les souches dépendantes de la streptomycine, il a "corrigé" la lecture des codons qui avaient changé à la suite de la mutation. Des résultats similaires ont donné des raisons de douter de l'exactitude du décodage de G. à l'aide d'un système sans cellule ; une confirmation était nécessaire, et principalement par des données in vivo.

Les principales données sur G. to. in vivo ont été obtenues en analysant la composition en acides aminés des protéines dans des organismes traités avec des mutagènes (voir) avec un mécanisme d'action connu, par exemple, le to-one azoté, qui provoque le remplacement de C par U et A par C dans la molécule d'ADN. G. Informations utiles fournissent également une analyse des mutations causées par des mutagènes non spécifiques, une comparaison des différences dans la structure primaire des protéines apparentées dans différents types, la corrélation entre la composition de l'ADN et des protéines, etc.

Le décodage de G. sur la base des données in vivo et in vitro a donné les résultats coïncidants. Plus tard, trois autres méthodes pour déchiffrer le code dans les systèmes acellulaires ont été développées : la liaison de l'aminoacyl-ARNt (c'est-à-dire l'ARNt avec un acide aminé activé attaché) avec des trinucléotides d'une composition connue (M. Nirenberg et al., 1965), liaison d'aminoacyl-ARNt avec des polynucléotides commençant par un certain triplet (Mattei et al., 1966), et l'utilisation de polymères comme ARNm, dans lesquels non seulement la composition, mais aussi l'ordre des nucléotides sont connus (X. Korana et al. ., 1965). Les trois méthodes se complètent et les résultats sont cohérents avec les données obtenues dans les expériences in vivo.

Dans les années 70. 20ième siècle il y avait des méthodes du contrôle particulièrement sûr des résultats du décodage de G. On sait que les mutations apparaissant sous l'influence de la proflavine consistent en la perte ou l'insertion des nucléotides séparés qu'amène au déplacement du cadre de lecture. Dans le phage T4, un certain nombre de mutations ont été induites par la proflavine, dans lesquelles la composition du lysozyme a changé. Cette composition a été analysée et comparée aux codons qui auraient dû être obtenus par un décalage dans le cadre de lecture. Il y a eu un match complet. De plus, cette méthode a permis d'établir quels triplets du code dégénéré codent pour chacun des acides aminés. En 1970, Adams (J. M. Adams) et ses collaborateurs ont réussi à déchiffrer partiellement G. to. par une méthode directe : dans le phage R17, la séquence de bases a été déterminée dans un fragment de 57 nucléotides de longueur et comparée à la séquence d'acides aminés de sa protéine de coquille. Les résultats étaient en parfait accord avec ceux obtenus par des méthodes moins directes. Ainsi, le code est déchiffré complètement et correctement.

Les résultats du décodage sont résumés dans un tableau. Il répertorie la composition des codons et de l'ARN. La composition des anticodons de l'ARNt est complémentaire des codons de l'ARNm, c'est-à-dire qu'au lieu de U, ils contiennent A, au lieu de A - U, au lieu de C - G et au lieu de G - C, et correspondent aux codons du gène de structure (ce brin de ADN, avec lequel l'information est lue) à la seule différence que l'uracile remplace la thymine. Sur les 64 triplets qui peuvent être formés par une combinaison de 4 nucléotides, 61 ont un "sens", c'est-à-dire codent des acides aminés, et 3 sont "non-sens" (dépourvus de sens). Il existe une relation assez claire entre la composition des triplets et leur signification, qui a été découverte même lors de l'analyse des propriétés générales du code. Dans certains cas, les triplets codant pour un acide aminé spécifique (par exemple, la proline, l'alanine) sont caractérisés par le fait que les deux premiers nucléotides (obligatoires) sont identiques et que le troisième (facultatif) peut être n'importe quoi. Dans d'autres cas (lors du codage, par exemple, de l'asparagine, de la glutamine), deux triplets similaires ont la même signification, dans lesquels les deux premiers nucléotides coïncident, et toute purine ou toute pyrimidine prend la place du troisième.

Codons non-sens, dont 2 ont des noms spéciaux correspondant à la désignation des mutants de phage (UAA-ocre, UAG-ambre, UGA-opale), bien qu'ils ne codent aucun acide aminé, mais ils ont grande importance lors de la lecture d'informations, codant la fin de la chaîne polypeptidique.

Les informations sont lues dans le sens de 5 1 -> 3 1 - à la fin de la chaîne nucléotidique (voir Acides désoxyribonucléiques). Dans ce cas, la synthèse des protéines passe d'un acide aminé avec un groupe amino libre à un acide aminé avec un groupe carboxyle libre. Le début de la synthèse est codé par les triplets AUG et GUG, qui comprennent dans ce cas un aminoacyl-ARNt de départ spécifique, à savoir le N-formylméthionyl-ARNt. Les mêmes triplets, lorsqu'ils sont localisés dans la chaîne, codent respectivement pour la méthionine et la valine. L'ambiguïté est levée par le fait que le début de la lecture est précédé d'un non-sens. Il est prouvé que la frontière entre les régions d'ARNm codant pour différentes protéines consiste en plus de deux triplets et que la structure secondaire de l'ARN change à ces endroits ; ce problème fait l'objet d'une enquête. Si un codon non-sens apparaît dans un gène de structure, la protéine correspondante n'est construite que jusqu'à l'emplacement de ce codon.

La découverte et le décodage du code génétique - une réalisation exceptionnelle de la biologie moléculaire - ont eu un impact sur toutes les sciences biologiques, posant dans certains cas les bases du développement de grandes sections spéciales (voir Génétique moléculaire). L'effet d'ouverture de G. et les recherches qui s'y rattachent sont comparables à l'effet qui a été rendu sur les sciences biologiques par la théorie de Darwin.

L'universalité de G. to. est une preuve directe de l'universalité de la principale mécanismes moléculaires vie de tous les représentants monde organique. Parallèlement, les grandes différences dans les fonctions de l'appareil génétique et de sa structure lors du passage des procaryotes aux eucaryotes et des unicellulaires aux multicellulaires sont probablement associées à des différences moléculaires dont l'étude est l'une des tâches de l'avenir. Puisque la recherche de G. to. n'est qu'une affaire ces dernières années, la signification des résultats obtenus pour la médecine pratique n'est qu'indirecte, permettant de comprendre la nature des maladies, le mécanisme d'action des agents pathogènes et substances médicinales. Cependant, la découverte de phénomènes tels que la transformation (voir), la transduction (voir), la suppression (voir), indique la possibilité fondamentale de corriger l'information héréditaire pathologiquement altérée ou sa correction - la soi-disant. génie génétique (voir).

Table. CODE GÉNÉTIQUE

Premier nucléotide du codon

Deuxième nucléotide du codon

Troisièmement, le codon nucléotide

Phénylalanine

J Non-sens

tryptophane

Histidine

Acide glutamique

Isoleucine

aspartique

Méthionine

asperge

Glutamine

* Encode la fin de la chaîne.

** Encode également le début de la chaîne.

Bibliographie: Ichas M. Code biologique, trans. de l'anglais, M., 1971; Archer N.B. La biophysique des défaites cytogénétiques et le code génétique, L., 1968; Génétique moléculaire, trad. de l'anglais, éd. A.N. Belozersky, partie 1, M., 1964 ; Acides nucléiques, par. de l'anglais, éd. A. N. Belozersky, Moscou, 1965. Watson JD Biologie moléculaire du gène, trans. de l'anglais, M., 1967; Génétique physiologique, éd. M.E. Lobasheva S.G., Inge-Vechtoma-va, L., 1976, bibliogr.; Désoxyribonucléines&ure, Schlttssel des Lebens, hrsg. v "E. Geissler, B., 1972 ; Le code génétique, Gold Spr. Harb. Symp. quant. Biol., v. 31, 1966; W o e s e C. R. Le code génétique, N. Y. a. o., 1967.

Conférence 5 Code génétique

Définition du concept

Le code génétique est un système d'enregistrement d'informations sur la séquence d'acides aminés dans les protéines en utilisant la séquence de nucléotides dans l'ADN.

Puisque l'ADN n'est pas directement impliqué dans la synthèse des protéines, le code est écrit dans le langage de l'ARN. L'ARN contient de l'uracile au lieu de la thymine.

Propriétés du code génétique

1. Tripletity

Chaque acide aminé est codé par une séquence de 3 nucléotides.

Définition : Un triplet ou codon est une séquence de trois nucléotides qui code pour un acide aminé.

Le code ne peut pas être monopleth, puisque 4 (le nombre de nucléotides différents dans l'ADN) est inférieur à 20. Le code ne peut pas être doublet, car 16 (le nombre de combinaisons et de permutations de 4 nucléotides par 2) est inférieur à 20. Le code peut être triplet, car 64 (le nombre de combinaisons et de permutations de 4 à 3) est supérieur à 20.

2. Dégénérescence.

Tous les acides aminés, à l'exception de la méthionine et du tryptophane, sont codés par plus d'un triplet :

2 AK pour 1 triplet = 2.

9 AK x 2 triplés = 18.

1 AK 3 triplés = 3.

5 AK x 4 triplés = 20.

3 AK x 6 triplés = 18.

Un total de 61 codes triplet pour 20 acides aminés.

3. La présence de signes de ponctuation intergéniques.

Définition:

Gène est un segment d'ADN qui code pour une chaîne polypeptidique ou une molécule tPHK, rARN ousPHK.

GènestPHK, rPHK, sPHKles protéines ne codent pas.

A la fin de chaque gène codant pour un polypeptide, il y a au moins un des 3 triplets codant pour les codons d'arrêt de l'ARN, ou signaux d'arrêt. Dans l'ARNm, ils ressemblent à ceci : UAA, UAG, UGA . Ils terminent (mettent fin) à la diffusion.

Classiquement, le codon s'applique également aux signes de ponctuation AOÛT - la première après la séquence leader. (Voir leçon 8) Il remplit la fonction d'une lettre majuscule. Dans cette position, il code pour la formylméthionine (chez les procaryotes).

4. Unicité.

Chaque triplet ne code qu'un seul acide aminé ou est un terminateur de traduction.

L'exception est le codon AOÛT . Chez les procaryotes, en première position (lettre majuscule) il code pour la formylméthionine, et en toute autre position il code pour la méthionine.

5. La compacité, ou l'absence de signes de ponctuation intragéniques.
Au sein d'un gène, chaque nucléotide fait partie d'un codon significatif.

En 1961, Seymour Benzer et Francis Crick ont ​​prouvé expérimentalement que le code est triplet et compact.

L'essence de l'expérience: mutation "+" - l'insertion d'un nucléotide. "-" mutation - perte d'un nucléotide. Une seule mutation "+" ou "-" au début d'un gène corrompt le gène entier. Une double mutation "+" ou "-" gâte également l'ensemble du gène.

Une triple mutation "+" ou "-" au début du gène n'en gâte qu'une partie. Une quadruple mutation "+" ou "-" gâche à nouveau le gène entier.

L'expérience prouve que le code est un triplet et il n'y a pas de signes de ponctuation à l'intérieur du gène. L'expérience a été réalisée sur deux gènes de phage adjacents et a montré, en outre, la présence de signes de ponctuation entre les gènes.

6. Polyvalence.

Le code génétique est le même pour toutes les créatures vivant sur Terre.

En 1979, Burrell a ouvert idéal code mitochondrial humain.

Définition:

"Idéal" est le code génétique dans lequel la règle de dégénérescence du code quasi-doublet est remplie : si les deux premiers nucléotides de deux triplets coïncident et que le troisième nucléotide appartient à la même classe (les deux sont des purines ou les deux sont des pyrimidines) , alors ces triplets codent pour le même acide aminé .

Il existe deux exceptions à cette règle dans le code générique. Les deux déviations du code idéal dans l'universel concernent les points fondamentaux : le début et la fin de la synthèse protéique :

codon

Universel

le code

Codes mitochondriaux

Vertébrés

Invertébrés

Levure

Végétaux

ARRÊT

ARRÊT

Avec UA

AGA

ARRÊT

ARRÊT

230 substitutions ne changent pas la classe de l'acide aminé codé. à la déchirabilité.

En 1956, Georgy Gamov a proposé une variante du code superposé. Selon le code de Gamow, chaque nucléotide, à partir du troisième du gène, fait partie de 3 codons. Lorsque le code génétique a été déchiffré, il s'est avéré qu'il ne se chevauchait pas, c'est-à-dire chaque nucléotide fait partie d'un seul codon.

Avantages du code génétique superposé : compacité, moindre dépendance de la structure protéique à l'insertion ou à la délétion d'un nucléotide.

Inconvénient : forte dépendance de la structure protéique à la substitution des nucléotides et restriction vis-à-vis des voisins.

En 1976, l'ADN du phage φX174 a été séquencé. Il possède un ADN circulaire simple brin de 5375 nucléotides. Le phage était connu pour coder 9 protéines. Pour 6 d'entre eux, des gènes localisés les uns après les autres ont été identifiés.

Il s'est avéré qu'il y a un chevauchement. Le gène E est complètement à l'intérieur du gène ré . Son codon d'initiation apparaît à la suite d'un décalage d'un nucléotide dans la lecture. Gène J commence là où le gène se termine. Codon d'initiation du gène J chevauche le codon de terminaison du gèneen raison d'un déplacement de deux nucléotides. La conception est appelée "décalage du cadre de lecture" par un nombre de nucléotides qui n'est pas un multiple de trois. À ce jour, le chevauchement n'a été démontré que pour quelques phages.

Capacité d'information de l'ADN

Il y a 6 milliards de personnes sur Terre. Informations héréditaires à leur sujet
enfermé dans 6x10 9 spermatozoïdes. Selon diverses estimations, une personne a de 30 à 50
mille gènes. Tous les humains ont environ 30x10 13 gènes, ou 30x10 16 paires de bases, qui constituent 10 17 codons. La page moyenne d'un livre contient 25x10 2 caractères. L'ADN de 6x10 9 spermatozoïdes contient des informations égales en volume à environ

Livre 4x10 13 pages. Ces pages occuperaient l'espace de 6 bâtiments NSU. 6x10 9 spermatozoïdes occupent la moitié d'un dé à coudre. Leur ADN occupe moins d'un quart de dé à coudre.

Le code génétique de différents organismes a certaines propriétés communes :
1) Tripletity. Pour enregistrer toute information, y compris les informations héréditaires, un certain chiffre est utilisé, dont l'élément est une lettre ou un symbole. L'ensemble de ces symboles constitue l'alphabet. Les messages individuels sont écrits sous la forme d'une combinaison de caractères appelés groupes de codes ou codons. Un alphabet composé de seulement deux caractères est connu - c'est le code Morse. Il y a 4 lettres dans l'ADN - les premières lettres des noms de bases azotées (A, G, T, C), ce qui signifie que l'alphabet génétique se compose de seulement 4 caractères. Qu'est-ce qu'un groupe de codes ou, en un mot, un code génétique ? 20 acides aminés de base sont connus, dont le contenu doit être écrit dans le code génétique, c'est-à-dire que 4 lettres doivent donner 20 mots de code. Disons que le mot se compose d'un caractère, alors nous n'obtiendrons que 4 groupes de codes. Si le mot se compose de deux caractères, il n'y aura que 16 groupes de ce type, ce qui n'est clairement pas suffisant pour coder 20 acides aminés. Par conséquent, il doit y avoir au moins 3 nucléotides dans le mot de code, ce qui donnera 64 (43) combinaisons. Ce nombre de combinaisons de triplets est tout à fait suffisant pour coder tous les acides aminés. Ainsi, le codon du code génétique est un triplet de nucléotides.
2) Dégénérescence (redondance) - une propriété du code génétique consistant, d'une part, dans le fait qu'il contient des triplets redondants, c'est-à-dire des synonymes, et d'autre part, des triplets "sans signification". Étant donné que le code comprend 64 combinaisons et que seuls 20 acides aminés sont codés, certains acides aminés sont codés par plusieurs triplets (arginine, sérine, leucine - six ; valine, proline, alanine, glycine, thréonine - quatre ; isoleucine - trois ; phénylalanine, tyrosine, histidine, lysine , asparagine, glutamine, cystéine, acides aspartique et glutamique - deux ; méthionine et tryptophane - un triplet). Certains groupes de codes (UAA, UAG, UGA) ne portent aucune charge sémantique, c'est-à-dire qu'il s'agit de triplets "sans signification". Les codons "sans sens", ou non-sens, agissent comme des terminateurs de chaîne - des signes de ponctuation dans le texte génétique - servent de signal pour la fin de la synthèse de la chaîne protéique. Une telle redondance de code est d'une grande importance pour augmenter la fiabilité de la transmission de l'information génétique.
3) Sans chevauchement. Les triplets de code ne se chevauchent jamais, c'est-à-dire qu'ils sont toujours diffusés ensemble. Lors de la lecture d'informations à partir d'une molécule d'ADN, il est impossible d'utiliser la base azotée d'un triplet en combinaison avec les bases d'un autre triplet.
4) Unicité. Il n'y a pas de cas où le même triplet correspondrait à plus d'un acide.
5) L'absence de caractères séparateurs dans le gène. Le code génétique est lu à partir d'un certain endroit sans virgule.
6) Polyvalence. À diverses sortes organismes vivants (virus, bactéries, plantes, champignons et animaux), les mêmes triplets codent pour les mêmes acides aminés.
7) Spécificité de l'espèce. Le nombre et la séquence des bases azotées dans la chaîne d'ADN varient d'un organisme à l'autre.