Примечание: * - у прокариот в начале транслируемой цепи мРНК кодирует молекулу формилметионина, отмечающую инициацию трансляции; ** - стоп-триплет не кодирует аминокислот, а указывает на завершение (остановку) синтеза создаваемой полипептидной цепи.
Проблема расшифровки генетического кода была принципиально решена уже в первое десятилетие после открытия комплементарно- ети цепей в двухспиральной структуре ДНК. В основе лежало простое соображение: одной буквой четырехбуквенного алфавита нуклеиновых кислот можно обозначить только 4 разных аминокислоты, двумя буквами - 4-4=16 аминокислот, и лишь трехбуквенных слов достаточно (4-4-4=64), чтобы каждую из 20 аминокислот назвать своим именем (или даже несколькими именами). Это было подтверждено разнообразными экспериментами, которые позволили расшифровать смысл каждого триплета (последовательность трех подряд азотистых оснований в полинуклеотиде). Такой фрагмент в кодирующей цепи ДНК (или в эквивалентном ей участке мРНК), читаемый в направлении 5'—>3', стали обозначать термином кодон. Перечень всех 64 кодонов с указанием смыслового значения каждого из них получил название генетический код. Он приведен в табл. 2.1 в том виде, какой имеет в молекулах мРНК (в ДНК вместо У всегда находится Т). Можно видеть, что только для метионина и триптофана имеется по одному кодовому слову, а почти половина аминокислот шифруется двумя кодонами каждая. Еще пять аминокислот имеют по 4, а аргинин, лейцин и серин - даже по 6 кодонов. Вместе с тем, есть триплеты (УАА, УДГ и УГА), которые не обозначают никакой аминокислоты, а играют роль стоп-сигналов: любой из них вызывает терминацию полипептидной цепи (т.е., дает «команду» о завершении ее синтеза).
Кодоны, символизирующие одну и ту же аминокислоту, называют синонимами. Как видно из табл. 2.1, в большинстве своем они различаются лишь последним (З'-концевым) основанием триплета (поэтому синонимы почти всегда располагаются в одной клетке таблицы). Изобилие синонимов при однозначном смысле каждого из них позволяет в значительной мере преодолевать негативные последствия точечных мутаций.
Твердо установлено, что генетический код универсален (одинаков у всех живых существ) и непрерывен (кодоны следуют один за другим без каких-либо интервалов или «знаков препинания»). Кроме того, он является неперекры- вающимся. Это означает, что каждый новый кодон не наслаивается на предыдущий, а «вступает в силу» только после полного считывания предшествующего триплета. Например, чередованием оснований ААГЦУГЦАЦ кодируется трипептид лизил(ААГ)-лейцил(ЦУГ)-гисти- дин(ЦАЦ), но не тетрапептид лизил(ААГ)- аланил(ГЦУ)-цистеил(УГЦ)-гистидин(ЦАЦ) и не октапептид лизил-серил-аланил-лейцил- цистеил-аланил-гистидил-треонин (отражающий считывание кодонов ААГ-АГЦ-ГЦУ-ЦУГ- УГЦ-ГЦА-ЦАЦ-АЦх).
Из-за неперекрываемости генетического кода добавление (вставка) или выпадение (деления) одного-двух оснований кодона (вследствие, например, мутации) приводит к сбою, который обозначают как сдвиг рамки считывания. Так, если в приведенной выше последовательности ААГЦУГЦАЦ исчезнет основание Ц в позиции
или появится добавочное А после первого кодона, то вместо трипептида лизил-лейцил-гисти- дин окажутся закодированными соответственно лизил-цистеил-треонин (ААГ-УГЦ-АЦх) или лизил-треонил-аланин (ААГ -ЛЦУ-ГЦА-Ц...). Иными словами, окажется ошибочной вся аминокислотная последовательность, синтезируемая после точки сбоя рамки считывания.