Основной объект генетических исследований – молекулы ДНК (дезоксирибонуклеиновой кислоты). Эти молекулы сосредоточены в клетке двух местах – в хромосомах в ядре (ядерные ДНК – яДНК) и в митохондриях (мтДНК) в цитоплазме клетки.
Наследственная информация кодируется цепочками двух типов – ДНК и РНК (рибонуклеиновая кислота). Цепочки обоих типов состоят из молекул нуклеотидов (или «азотистых оснований») четырех видов – аденин (A), гуанин (G), цитозин (C) и тимин (T). Таким образом, одинарную цепочку можно представить как произвольную последовательность из четырех букв, например ATCGGATCAAC, полностью отвлекаясь как от химической природы ее элементов, так и от типа химических связей между ними.
Следует отметить, что у любой такой цепи имеется естественная химическая «ориентация», которую вышеприведенная простая запись не отражает. А именно: каждый нуклеотид связан со своими соседями в двух позициях – в месте присоединения фосфата (5-ый атом углеродного цикла) и в месте присоединения радикала OH (там, где находится 3-ий углерод). Если обозначить указанные связи нуклеотидов через 5' и 3' соответственно, то можно просто сформулировать важный факт: соседние нуклеотиды могут соединяться друг с другом только «концами» разных типов, то есть к 3' концу одного может присоединиться 5' конец другого и наоборот, но соединения 5'-5' и 3'-3' невозможны. Используя данные обозначения, говорят о 5'-ом либо 3'-ем конце всей цепи и пишут, например, так: 5'-ATCGGATCAAC-3'. Если условиться, что при буквенной записи цепи начинаются с 5' конца, обозначения 5' и 3' можно опускать. Заметим, что ориентация цепей важна не только как естественный способ их упорядочения, но еще и потому что она учитывается самой природой в процессах передачи генетической информации – новая цепь может строиться только в направлении от 5' к 3'.
Если РНК – одиночная цепь нуклеотидов, то ДНК – это двойная цепочка. Точнее – две цепочки, соединенные друг с другом с соблюдением так называемой комплементарности (дополнительности). Так C есть комплемент (дополнение) к G, G к C, A к T и T к A. Или, говоря другими словами, аденин соединяется только с тимином, гуанин – только с цитозином.
При секвенировании (расшифровке) ДНК производится целый ряд весьма непростых процедур, в результате чего появляется длинная запись последовательности расположения нуклеотидов в цепочке – сиквенсы. Эти записи в нескольких форматах ныне хранятся в базах данных сиквенсов, крупнейшей из которых является Генбанк – онлайн-хранилище, доступное исследователям. Ниже приводится пример фрагмента такой записи:
>Homo sapiens mitochondrion, D-loop region, sample #1
AATCAGAGAAAAAGTCTTTAACTCCACCATTAGCACCCAAAGCTAAGATTCTAATTTAAACTATTCTCTGTT
CTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCACCCATCAACAACCGCTATGTATTTCGT
ACATTACTGCCAGCCACCATGAATATTGTACGGTACCATAAATACTTGACCACCTGTAGTACATAAAAACCC
AATCCACATCAAAATCCCCTCCCCATGCTTACAAGCAGGTACAGCAATCAACCCTCAACTATCACACATCA
ACTGCAACTCCAAAGCCACCCCTCACCCACTAGGATACCAACAAACCTACCCACCCTTAACAGTACATAGT
ACATAAAGCCATTTACCGTACATAGCACATTACAGTCAAATCCCTTCTCGTCCCCATGGATGACCCCC
В ходе эволюционного процесса в живом организме происходят изменения – мутации, которые в дальнейшем передаются по наследству. Наследственная же информация, как указывалось выше, передается с помощью ДНК. Таким образом, в результате мутаций происходит изменение структуры ДНК – изменение последовательности нуклеотидов. Наличие мутаций как раз и выявляется по различию записей (сиквенсов) таких последовательностей, отражающих структуру ДНК у разных людей (животных, растений и т.д.).
«С эволюционной (филогенетической) точки зрения мутациями обычно называют различия между двумя сиквенсами, про которые установлено, что один из них является «непосредственным» эволюционным предком другого. Между ними могут быть десятки и даже сотни трансмиссий, и нередко мы сталкиваемся с ситуацией, когда близкие «родственники» сиквенса не обнаружены, и его приходится сравнивать с достаточно отдаленными, что приводит к реконструированию большого числа мутаций при переходе от узла-предка к его ныне живущим «непосредственным» узлам-потомкам. Поясним сказанное простым примером.
Taxon1 AGCCTGGATCGTATTAGCATGTA
Taxon2 AGCCTGAATCGTACTAGCATGTA
Taxon3 AGCCTGAATCGTATTAGCACGCA…
Разумно предположить, что общий предок трех данных сиквенсов в каждой позиции имел нуклеотид, встречающийся у большинства потомков:
Anc AGCCTGAATCGTATTAGCATGTA
но при этом любой из трех сиквенсов Taxon1, Taxon2 и Taxon3 хотя бы в одной позиции отличается от своего предка. Иными словами, где-то на эволюционном пути от сиквенса Anc к трем его потомкам произошли мутации, а именно, линии Taxon1 и Taxon2 мутировали в одной позиции, а Taxon3 – сразу в двух» (А.Чубенко, «Сыновья Адама»).
Обратим внимание на слова «разумно предположить» в приведенной выше цитате. Спорить не буду – в данном случае это предположение действительно разумно. Однако это – всего лишь предположение, а вовсе не четко установленный факт!.. А любое предположение – даже не просто гипотеза, а субъективная гипотеза!..
Далее мне придется немного перефразировать А.Чубенко, чтобы избежать излишней специфической терминологии.
Усложним задачу и зададимся вопросом – в каком порядке происходили мутации в линии Taxon3? Ответить на данный вопрос, имея в наличии только указанный набор данных, невозможно. Сначала, например, могла произойти мутация в четвертой позиции с конца, а затем во второй с конца, а могло быть и наоборот – сначала во второй с конца, а затем в четвертой, или вообще обе мутации могли произойти одновременно (пусть это и маловероятно).
Однако, если бы в нашем наборе данных присутствовал такой сиквенс:
Taxon4 AGCCTGAATCGTATTAGCATGCA
то можно было бы сделать вывод, что он лежит «на полпути» между вариантом Taxon3 и общим предком Anc, имея только одну мутировавшую позицию – вторую с конца. Таким образом, сиквенс Taxon4 – предок сиквенса Taxon3, что, впрочем, не мешает обоим «жить» в одно время, ведь мы сейчас рассматриваем не реальные организмы, а участки их ДНК, которые могут мутировать с разной скоростью, вследствие чего среди живых потомков Taxon4 есть как неизменные, так и мутировавшие до состояния Taxon3. Более того, среди ныне живущих организмов вполне может встретиться и носитель предкового типа Anc, хотя со временем количество таких неизмененных вариантов убывает.
«Итак, мы провели простейшую филогенетическую реконструкцию – восстановили вид общего предка трех сиквенсов, при этом столкнулись с неопределенностью порядка возникновения мутаций и видели, как добавление новых данных может изменить точность нашего анализа» (А.Чубенко, «Сыновья Адама»).
Данный вывод, на мой взгляд, весьма важен.
Обнаружение останков ранее неизвестных видов и подвидов предшественников человека, как мы могли убедиться ранее, способно приводить к весьма существенному пересмотру взглядов палеоантропологов на эволюционное древо человека. В частности поэтому так бурно обсуждаются находки, связанные, например с «денисовским» человеком и «хоббитом». Точно так же (как теперь выясняется) дело обстоит и с результатами генетических исследований.
Ситуация усугубляется тем, что в реальности даже у современного человека считается полностью расшифрованной лишь мтДНК (да и то со второй попытки – в первой позднее была обнаружена ошибка). Для неандертальца и денисовского человека удалось расшифровать ДНК лишь частично, а для более древних останков ДНК выделить пока еще не удается. То есть мы имеем дело как раз с ситуацией, при которой отсутствует масса данных. И появление новых данных, способных повлиять на выводы даже кардинальным образом, очень даже возможно. В собранной же на текущий момент «мозаике» эволюционного древа Гомо сапиенс вполне могут отсутствовать весьма важные детали!..
Пойдем далее.
«…даже самая близкая эволюционная связь сиквенсов не является непосредственной в физическом смысле слова, так как степень реального родства живых организмов можно восстановить по ДНК только в том случае, если известна скорость мутирования рассматриваемого участка. Встречаются участки ДНК, где мутации определенного типа происходят раз в несколько столетий, и наоборот, бывают крайне консервативные участки, например кодирующие критически важные для организма функции, где большинство мутаций влечет нежизнеспособность нового организма, и поэтому новые «устойчивые» варианты появляются раз в несколько тысячелетий. Специалисты, имеющие практический опыт работы с сиквенсами, даже интуитивно умеют определять примерную степень родства генетических линий, исходя из свойств рассматриваемых участков ДНК, скорости их эволюции и особенностей филогении» (А.Чубенко, «Сыновья Адама»).
Хм… Ничуть не сомневаюсь в профессионализме упомянутых в цитате специалистов. Но интуиция есть интуиция – она может и подвести. И наличие подобного субъективного фактора настораживает. Как теперь разобраться, где специалисты сделали вывод на основе объективных данных, а где – на собственной интуиции?..
Оставим собственные субъективные сомнения в стороне и перейдем к другому примеру, приведенному в статье.
Рассмотренный ранее пример достаточно тривиален и позволяет реконструировать эволюционное древо. Но изменим выборку данных, сохранив первые два сиквенса и добавив два новых:
Taxon1 AGCCTGGATCGTATTAGCATGTA
Taxon2 AGCCTGAATCGTACTAGCATGTA
Taxon5 AGCCTGGATCGTACTAGCATGTA
Taxon6 AGCCTGAATCGTATTAGCATGTA
Изменяющихся позиций осталось вместо четырех всего две – седьмая и четырнадцатая с начала. Однако они имеют неприятную особенность – в них представлены все четыре возможных сочетания изменяющихся нуклеотидов: GT, AC, GC и AT. И какой из четырех вариантов ни выбрать в качестве предкового, придется допустить, что по крайней мере одна из позиций мутировала дважды. Например, если выбран предок GT, от него можно произвести с одной заменой GC, от GC – AC, и далее AT, то есть в четырнадцатой позиции имели место переходы T → C → T. В таких случаях говорят, что имеет место так называемая гомоплазия в паре позиций 7 и 14, причем позиция 14 мутирует «обратно».
Если же в качестве корня выбрать сиквенс с GC, то гомоплазия вызовет уже не обратную, а «параллельную» мутацию в четырнадцатой позиции – в двух ветвях независимо друг от друга происходит мутация C в T: T ← C → T. И чем больше таких пар позиций в выборке, тем сложнее и ненадежнее реконструкция истории таких сиквенсов.
«Заметим, что чем быстрее мутирует позиция, тем чаще она вступает в такие гомоплазийные пары с другими позициями. В реальных выборках гомоплазия встречается достаточно часто, а в случаях, когда рассматриваются участки такого вида, как например тандемные повторы, то почти каждая позиция (или признак) может вступать в отношение гомоплазии с какой-то другой позицией (признаком). Филогенетические программы возвращают результат в виде эволюционного дерева либо множества равновероятных деревьев» (А.Чубенко, «Сыновья Адама»).
Итак оказывается, что возможны случаи, когда генетические исследования дают вовсе не однозначный ответ, а сразу несколько вариантов, вероятность реализации которых вдобавок одинакова!..
Далее. Физическая мутация всегда имеет направление изменения – одно состояние цепи ДНК сменяет другое. Эволюционное древо также имеет «корневой узел», с которого началась эволюция рассматриваемой ветви, и «узлы-листья», являющиеся ныне живущими потомками корня.
В первом из рассмотренных выше примеров был использован простейший метод реконструкции предка – в каждой позиции выбирался нуклеотид, представленный у большинства сиквенсов. В том же случае, если мы рассматриваем реальную выборку из большого числа сиквенсов, описанный подход будет неприменим, поскольку трудно предположить, что, скажем, 100 сиквенсов различного вида развились от одного общего предка одновременно и независимо. Скорее наоборот – наверняка в этой выборке есть более близкие друг к другу типы и наоборот более удаленные друг от друга. Следовательно, эволюционное древо может иметь сложную иерархическую структуру.
Вынужденные работать в столь непростых условиях, генетики разработали множество формализованных методов реконструкции структуры дерева, определения вида предковых узлов и корня, которые применимы как к малым выборкам из нескольких сиквенсов, так и к большим выборкам в несколько тысяч образцов. И конечно же, никто не занимается столь сложным анализом «вручную» – для реконструкции дерева используются компьютеры, анализирующие исходные выборки сиквенсов по определенным алгоритмам. И в этих алгоритмах приходится учитывать массу дополнительных деталей.
«…нередко возникает потребность как-то ранжировать позиции по скорости мутаций в них, чтобы программа могла искать деревья, более вероятные с точки зрения известных биологических особенностей мутирования, поэтому предварительная обработка молекулярных данных обязательно включает в себя анализ сиквенсов как последовательностей нуклеотидов. Кроме того, многие методы требуют данных об относительной вероятности перехода одного нуклеотида в другой, притом для каждой позиции отдельно» (А.Чубенко, «Сыновья Адама»).
Вышеприведенные словосочетания «формализованные методы», «использование алгоритмов», «ранжирование позиций», «вероятность перехода одного нуклеотида в другой» подразумевают под собой не только неоднозначность решения (как для последнего словосочетания), но и сильнейшее влияние субъективного фактора – ведь делает это все человек. И методы с алгоритмами разрабатывает, и позиции ранжирует, и даже вероятность перехода оценивает. И использование компьютеров не только не улучшает ситуацию, а наоборот – только усугубляет ее.
Обычный человек часто воспринимает выводы, полученные с использованием компьютеров, чуть ли не за истину, а результаты компьютерного моделирования чуть ли не за достоверно установленный факт. Грешат таким заблуждением, увы, и многие из тех, кто причисляет себя к сообществу ученых.
Компьютер действительно не обладает какими-то субъективными предпочтениями. Но он исполняет то, что ему задал человек – программист, разработчик модели или тот, кто задавал исходный алгоритм для расчетов. Ведь у компьютера нет собственного интеллекта. Что в компьютер заложишь – то и получишь. Все субъективные ошибки человека, попавшие в программу, компьютер в ходе расчетов сохраняет.
И еще один момент.
При исследовании родословной человека и анализе путей расселения наших предков по разным континентам генетика использует такие термины как гаплотип и гаплогруппа.
«Гаплотипом называют произвольный вариант какого-либо участка ДНК, в контексте, когда на этом участке встречаются вариации нуклеотидов… Гаплотип – понятие эмпирическое, так как последовательность нуклеотидов на каждом участке можно узнать с помощью секвенирования, применяя минимум теоретических усилий.
Набор родственных гаплотипов, происходящих от общего предка, называют гаплогруппой, но это понятие уже не столь элементарно. Очевидно, что огромная неопределенность скрывается в понятии «родственный», ведь… факт филогенетического родства сиквенсов может иметь разную степень достоверности.
Далее, почему не считать, что каждый гаплотип на филогенетическом древе вместе со всеми своими потомками образует гаплогруппу? Действительно, пока не указаны строгие правила выделения «главных» ветвей, такой подход кажется разумным. На первый вопрос (о достоверности гаплогрупп) можно ответить следующим образом: любая гаплогруппная номенклатура основывается на некотором варианте дерева, принимаемом большинством специалистов, поэтому в конечном счете проблема упирается в наличие консенсусного мнения. Например, авторитетным считается мнение авторов Y-хромосомной филогении
http://isogg.org или филогении мтДНК
http://phylotree.org» (А.Чубенко, «Сыновья Адама»).
Итак, мы вышли на то, что решение о содержании базового понятия и выстраивание эволюционного древа принимается не на основе строгих выводов из объективных фактов, а… методом голосования среди авторитетов (вдобавок, среди авторов самой методики!). К каким ошибкам это может приводить, мы ранее уже рассматривали…