Проблема «притяжения длинных ветвей» – главная головная боль биологических таксономистов. Она поднимает голову всякий раз, когда распространены конвергенции и реверсии, и, к сожалению, мы не можем надеяться избежать ее, рассматривая больше текста. Наоборот, чем больше текст, который мы рассматриваем, тем больше ошибочных общих черт мы находим и сильнее укрепляется наша убежденность в неправильном ответе. Такие деревья, как говорят, лежат в угрожающе звучащей «зоне Фельзенштайна», названной в честь выдающегося американского биолога Джо Фельзенштайна. К сожалению, информация ДНК особенно уязвима к притяжению длинных ветвей. Главная причина в том, что существует только четыре буквы в коде ДНК. Если большинство различий являются изменениями единственной буквы, независимая случайная мутация в той же букве особенно вероятна. Притяжение длинных ветвей создает для нас минное поле. Ясно, что в этих случаях мы нуждаемся в альтернативе экономичности. Она сводится к форме техники, известной как анализ вероятности, которая все больше и больше помогает в биологической таксономии.
Анализ вероятности использует даже больше компьютерной производительности, чем экономичность, потому что теперь важна длина ветвей. Таким образом, мы имеем дело с намного большими деревьями, потому что, в дополнение к рассмотрению всех возможных образцов ветвления, мы должны также рассматривать все возможные длины ветвей – Гераклова задача. Это означает, что, несмотря на умные сокращенные методы, сегодняшние компьютеры могут справиться с анализом вероятности, вовлекающим лишь небольшое число видов.
«Вероятность» не является неопределенным термином. Напротив, у нее есть точное значение. Для дерева специфической формы (не забываем включать длины ветвей) из всех возможных эволюционных путей, которые могли бы создать филогенетическое дерево такой же формы, только крошечное число образует точно те же тексты, которые мы теперь видим. «Вероятность» данного дерева – исчезающе маленькая вероятность окончиться фактическими существующими текстами, а не любыми другими текстами, которые могли быть созданы таким деревом. Хотя значение вероятности для дерева является крошечной, мы все еще можем использовать сравнение одного очень маленького значения с другим как способ оценки.
В анализе вероятностей есть различные альтернативные методы получения «лучшего» дерева. Самое простое – искать одно дерево с самой высокой вероятностью: наиболее вероятное дерево. Не безосновательно такой способ имеет название «максимальная вероятность», но только то, что это – единственное наиболее вероятное дерево, не означает, что другие возможные деревья намного менее вероятны. Позже было предложено, чтобы вместо того, чтобы доверять единственному наиболее вероятному дереву, мы рассматривали все возможные деревья, но оказывали пропорционально большее доверие более вероятным. Этот подход, альтернативный максимальной вероятности, известен как филогения Байеса (Bayesian phylogeny). Если много вероятных деревьев согласуются в специфической точке ветвления, то мы считаем, что у нее есть высокая вероятность того, чтобы быть правильной. Конечно, так же, как в максимальной вероятности, мы не можем рассмотреть все возможные деревья, но есть способы сокращенных вычислений, и они работают вполне прилично.
Наша уверенность в дереве, которое мы, наконец, выбираем, будет зависеть от нашей уверенности, что его различные ветви правильны, и мы обычно помещаем значения вероятностей около каждой точки ветвления. Вероятности вычисляем автоматически, используя метод Байеса, но для других способов, таких как экономичность или максимальная вероятность, мы нуждаемся в альтернативных мерах. Обычно используется метод «bootstrap», который неоднократно производит повторную выборку различных данных, чтобы выяснить, насколько большие отклонения создаются в окончательном дереве – другими словами, насколько дерево устойчиво к ошибке. Чем выше значение «bootstrap», тем больше заслуживает доверия точка разветвления, но даже эксперты бьются над тем, как точно истолковать, что говорит нам специфическая величина «bootstrap». Подобные методы – «складной нож» и «индекс распада». Все они – меры того, насколько мы должны доверять каждой точке ветвления дерева.