«-ом» и «-омик»
Студент факультета биоинформатики в Обществе Макса Планка сидит перед компьютером, не замечая входящих и выходящих из помещения; стол усеян полупустыми упаковками из-под печенья, а под столом – куча пластиковых бутылок. Он сравнивает транскриптомы нормальных и метастатических клеток. Все, что заканчивается на «-ом», содержит все компоненты определенного образца, все мРНК (транскриптомы), все белки (протеомы), все метаболиты (метаболомы), все киназы (киномы) и т.д. В данном случае действует принцип «Исследуем всё сразу». Особенно это относится к компонентам, которые сами по себе совершенно неизвестны и их изучают не отдельно каждый, а все вместе. ()
Итак, продолжим. Во-первых, есть компьютер с прекрасным названием Illumina, на котором выполняются все эти операции, секвенирование всех РНК после транскрипции в ДНК. Это высокоскоростной компьютер, с помощью которого осуществляется секвенирование и хранение последовательностей. Сегодня такие компьютеры есть в любом институте при каждом университете. Известные гены идентифицировать легко, а секвенирование неизвестных генов нужно проводить в полном объеме, что приводит к образованию миллиардов последовательностей, называемых «секвенирование нового поколения» (СНП), означающему новую версию предыдущих последовательностей. Повторные последовательности получают, чтобы снизить вероятность статистических ошибок; это называется «покрытие» (или охват), поэтому 10 повторений соответствуют 10-кратному покрытию. Для анализа всех генов образца применяется «геномика». Для фрагментации ДНК используется «метод дробовика», а отдельные части сшиваются обратно для последовательного удлинения. В данном случае нужно выучить новые понятия. Затем новые последовательности выстраивают в один ряд, и их сопоставляют с «референсными геномами» для идентификации. Это образец или модель генома, на которой сходятся ученые. Официальный референсный геном человека получают не от какого-то одного человека, это виртуальный геном. Его собрали из ДНК последовательностей более чем 20 доноров, и его состав постоянно обновляется.
Два «нормальных» генома отличаются друг от друга более чем 3 млн нуклеотидов – малыми нуклеотидными морфизмами (МНМ) (их английская аббревиатура SNP произносится как «снип»), точечными мутациями. Невероятное число различий – действительно ли существует так много «нормальных» различий? Различия касаются почти 0,1% каждого генома, но что это значит? Возможно, в этом нет ничего особенного, по крайней мере это сразу же не приводит к заболеванию. Чтобы выяснить, какие именно различия указывают на заболевания, необходимо выполнить большой объем работ. Однажды эти гены определят с помощью персонифицированной медицины – нетривиальная задача. Что это за гены? Мы задались вопросом о различиях между транскриптомами, уровнем экспрессии генов, которая отличается у нормальных и метастатических клеток, и в качестве примера взяли белок Src. Одно значимое различие видно под микроскопом. В то время как нормальные клетки выращивают в трехмерных культурах клеток, в частности ацинозных, шароподобных структурах, «метастатический» белок делает их «текучими» ().
Анализ последовательности указывает, что 600 транскриптов экспрессируются по-разному: в метастатических клетках количество транскриптов в 10, 100 и даже 1 млн раз больше, а у некоторых лишь двукратное отличие от нормальных клеток. Двукратная разница зачастую не принимается в расчет и рассматривается как нерелевантная, но я полагаю, что это неправильно. У нас две хромосомы, и если одна отсутствует, клетка находится на полпути к опухоли. Существует компьютерная программа, позволяющая идентифицировать все эти 600 генов, для чего используется база данных генной онтологии (ГО) или аналогичные базы данных. После того как мы исключили из списка все гены, присутствующие и в нормальных контрольных клетках, у нас все еще оставалось 435 генов, которые могут быть типичными для метастазов. Ряд генов влияет на миграцию, адгезию или апоптоз, а 17 являются транскрипционными факторами, которые, в свою очередь, могут «включить» гораздо больше генов. Как же это сложно! Может, некоторые гены более подходящие, чем другие? Существуют ли «основные», управляющие гены? Многие ученые их ищут, и мы тоже.
Еще один «-ом» – метагеном, то есть сумма всех геномов организма. Очень «модный» метагеном – это микробиом – совокупность всех микроорганизмов, которые могут ассоциироваться с человеком и находиться в ЖКТ, на коже и в органах репродуктивной системы. Столь же интересны образцы, взятые из почвы, сточных вод, озер, океанов, экскрементов живых или ископаемых животных, образцов из легких пациентов с кистозным фиброзом. Секвенируют даже образцы пекинского смога (он содержит микроорганизмы), а из реки Ганг берут пробы воды, чтобы понять, является ли вода этой реки действительно священной (в ней содержатся некоторые фаги, уничтожающие бактерии)! Для этого требуются сотни специалистов по биоинформатике и более совершенные компьютеры. Следующим мог бы стать вопрос о «метаболоме» – всех компонентах метаболизма. А затем? Кином всех киназ? Их уже известно 1000 видов. Я изучала одну из них, в связи с чем возникает вопрос: что нам нужнее – совокупность всех киназ, анализ одной специфической киназы или какого-то частного случая? А ответ следующий: нам нужна и та и другая информация.
Фримен Дайсон – один из лучших из ныне живущих математиков и физиков, который не получил Нобелевскую премию, но помог другим ученым получить ее и с которым я познакомилась во время работы в принстонском Институте перспективных исследований, – написал статью «Птицы и лягушки»[12]. В ней он рассматривает разные взгляды на научные проекты и на науку в целом – с близкого расстояния, расстояния прыжка и отдаленной перспективы. Нужно и то и другое. Однако, как правило, исследователи предпочитают либо одно, либо другое. Сам Дайсон относит себя к «лягушкам» (типичная британская сдержанность?). Его самая известная книга называется «Источники жизни». Почему во множественном числе? Их несколько? Этот вопрос мы рассмотрим позднее.
А что насчет вирома – совокупности всех вирусов? Их особенно сложно обнаружить и охарактеризовать с эпигенетической точки зрения. В наших геномах полно вирусов, которые интегрируются в разных локациях, поэтому считается, что «интерес представляют» только те, что локализуются в консервативном районе генома. Сайты интеграции вируса, как правило, не консервативны. Поэтому многие вирусы не обнаружены. Тем не менее в наших геномах удалось выделить некоторые вирусы, и когда мы узнали, как их много – существуют миллионы «ископаемых» ретровирусов (о чем см. ниже), это было большим сюрпризом.
На сегодняшний день известно в общей сложности 3000 типов вирусов, из которых около 150 типов в ряде случаев являются болезнетворными. В сточных водах выявлено 50 000 фагов. Следует помнить, что в целом на нашей планете существует 10вирусов и фагов! Можно ли их все изучить? Их слишком много. Поэтому надо сосредоточиться на болезнетворных вирусах и вернуться к «перспективе лягушек», что явно противоречит идее данной книги, цель которой – обратить внимание читателей на то, что большое число вирусов не являются болезнетворными. И все же их может оказаться слишком много.
Обсуждение вопроса о том, как справиться со всеми этими последовательностями – даже при наличии «облачных» технологий, – привело меня в полное изумление: полученные последовательности не нужно сохранять, их можно выбрасывать! А если они вам понадобятся, просто снова проведите секвенирование. Повторное секвенирование занимает меньше времени, чем сохранение последовательностей и их поиск в базе данных, – вот это да!