К тому времени стало очевидно, что молекула ДНК является ключом к наследованию информации. Каким-то образом она кодировала последовательность аминокислот в белках, но реконструкция на основе анализа рентгеновских дифракционных снимков оставляла совершенно не очевидным ответ на вопрос, как может структура ДНК содержать необходимую информацию для синтеза белков. В ДНК содержится всего лишь четыре различных нуклеотида. Как могут четыре нуклеотида кодировать информационную систему, приводящую к образованию белков, имеющих двадцать аминокислот в весьма определенных последовательностях?
Истолкование генетического кода было, возможно, еще более хитроумной задачей, нежели истолкование структуры ДНК. Вслед за работой Эйвери и его коллег и структурным анализом двойной спирали, проведенным Франклин, Гослингом, Уилкинсом, Уотсоном и Криком, быстро пришло понимание того, что если в ДНК содержится всего лишь четыре нуклеотида, а в белках – двадцать аминокислот, то каждую аминокислоту должен кодировать больше чем один нуклеотид. Нуклеотидов должно было быть самое меньшее три – такая логика основывалась на простых расчетах. Если бы нуклеотидов было только два, то все возможные комбинации давали бы 42 = 16 аминокислот, а этого далеко не достаточно. Если же, однако, взять три нуклеотида, то возможных комбинаций будет 43 = 64, и этого уже более чем достаточно. Используя метод внедрения и последующего удаления одиночного нуклеотида в вирус, заражавший E. coli, команда ученых под руководством Фрэнсиса Крика, включавшая в себя также известного борца с традициями Сиднея Бреннера, расшифровала генетический код этой бактерии. Они показали, что набор из трех нуклеотидов в очень специфической последовательности ДНК определяет конкретную аминокислоту. Их работа была в буквальном смысле расшифровкой кода, этого Розеттского камня, ради понимания механизма наследования жизни. Тем не менее возникли и некоторые затруднения.
Для большинства аминокислот более чем один набор из трех нуклеотидов, составляющих последовательность, кодирует одну и ту же аминокислоту. Зная последовательность ДНК, можно вывести аминокислотную последовательность белка, кодирующегося этим геном. Однако эта информация будет вырожденной, то есть мы не можем вывести точную последовательность ДНК, зная последовательность белков. Знание «слов» одного языка в мире ДНК определяет одно значение в аминокислотном мире белков. Но знание «слов» аминокислот белков не обеспечивает адекватного перевода на язык ДНК. Главная проблема понимания того, как функционируют все живые организмы, очевидно, заключалась в том, какие инструкции закодированы в ДНК. И эта проблема вела к новой технической задаче – секвенированию ДНК.
Белки, РНК и ДНК являются полимерами, а секвенирование любого биологического полимера представляет собой серьезный вызов: реакция должна отсекать каждый из мономеров родительского полимера в определенном порядке. Секвенирование же ДНК имело еще одну дополнительную сложность, поскольку этот полимер имеет двойную структуру, и, хотя можно было секвенировать однонитевую РНК, основы ее химизма неприменимы к ДНК непосредственно.
Рис. 37. Кодоновое колесо – Розеттский камень, указывающий, как индивидуальные основания, или нуклеотиды, в составе ДНК кодируют конкретные аминокислоты в белке. Код каждой аминокислоты содержится в последовательности из трех нуклеотидов, которая называется кодоном. Двигаясь от центра колеса наружу, можно определить, какая аминокислота закодирована каждой из последовательностей ДНК. Например, последовательность AGC кодирует аминокислоту серин, а последовательность ACC – треонин. Для всех аминокислот, за исключением метионина и триптофана, существует более одного возможного кодона
За эту проблему брались несколько ученых-химиков, первым среди которых был Фредерик Сэнгер, английский биохимик из Кембриджского университета, уже получивший в 1958 году Нобелевскую премию по химии за разработку методики секвенирования белков. Сэнгер и его коллеги разработали метод секвенирования ДНК, предполагавший вначале разделение двух нитей и затем химическое разбиение последовательности в случайном порядке, на любом из четырех нуклеотидов в цепочке. После этого было необходимо найти молекулярную массу того, что осталось после химической реакции. Молекулярная масса продуктов определялась посредством отделения каждого из них согласно размеру в большом объеме геля. Через гель пропускался электрический ток, ввиду чего разрезанные кусочки ДНК были принуждены двигаться через гель. Самые маленькие кусочки двигались быстрее и, следовательно, дальше, чем более крупные; измеряя, насколько далеко продвинулся тот или иной кусочек, можно было вычислить, какой нуклеотид оказался на первом месте, какой – на втором, третьем и так далее. Применив эту методику, Сэнгер и его коллеги смогли секвенировать вирус PhiX174, содержащий 5375 нуклеотидов.
Их работа, опубликованная в 1977 году, была первой в истории записью геномной последовательности ДНК. Метод Сэнгера в конце концов привел к появлению технологии, позволившей секвенировать геном человека. В 1980 году Сэнгер получил вторую в своей жизни Нобелевскую премию по химии, разделив ее с Уолтером Гилбертом, независимо от него открывшим другой, несколько более трудоемкий метод секвенирования ДНК. Был и третий участник, разделивший с ними премию, – Пол Берг, биохимик из Стэнфордского университета, открывший процесс создания молекул ДНК из двух или более источников – молекул, не существующих в природе. Такие рукотворные молекулы ДНК называются рекомбинантной ДНК. Открытия этих трех ученых изменили мир не меньше, а, вероятно, даже больше, чем открытие структуры ДНК.
Разработанная Сэнгером базовая методика секвенирования посредством «обрыва цепи» не могла применяться к длинным последовательностям ДНК. Для того чтобы подступиться к проблеме секвенирования человеческого генома, содержащего 23 хромосомы, ДНК следовало разрезать на более мелкие куски. Отдельные куски уже можно было секвенировать, после чего перекрывающиеся случайные последовательности сверялись и по ним реконструировался весь геном. Этот метод, которому было дано название «метод дробовика» (термин, предложенный самим Сэнгером), был вначале разработан для микроорганизмов, а затем его применил к человеческому геному Дж. Крейг Вентер с коллегами. В самом деле, если технические аспекты секвенирования были сами по себе достаточно сложны, то реконструирование порядка генов в каждой хромосоме представляло собой еще более трудную задачу. Эта работа, на завершение которой ушло несколько лет, показала, что наш геном содержит более 3,2 млрд пар оснований, но лишь около 1,5 % из них кодируют белки. Это был один из самых больших сюрпризов, преподнесенных проектом по секвенированию человеческого генома, – у нас, оказывается, всего лишь около 20 тысяч генов, кодирующих белок, – гораздо меньше, чем предсказывалось до того, как геном был секвенирован, и всего лишь на один-два порядка больше, чем у обычных червей. Таким образом, более 97 % нашего генома содержат некодирующие области, которых нет у микроорганизмов.