Исследования и разработки
Коммерсантъ. GENA, который прочитал ДНК

Коммерсантъ. GENA, который прочитал ДНК

Все свойства живых организмов в той или иной степени зависят от ДНК, будь то предрасположенность людей и животных к болезням или агропромышленные свойства растений. Недавно в журнале Nucleic Acids Research была опубликована статья об обученной на последовательностях ДНК модели GENA_LM, инструменте, с помощью которого ученые могут работать над расшифровкой сложной информации, скрытой в нашем геноме. Об особенностях первой российской ИИ-модели для ДНК, расшифровке генома и о том, как команда российских ученых конкурирует со Стэнфордом и NVIDIA, «Ъ-Науке» рассказывает доктор биологических наук, ведущий научный сотрудник группы «Биоинформатика» Института AIRI и Института цитологии и генетики СО РАН Вениамин Фишман.

— Подскажите, пожалуйста, что именно представляет собой GENA_LM?

— Я всегда говорю, что это похоже на ChatGPT, но для геномов. LM в названии расшифровывается как Language Model, то есть «Языковая модель». Наверное, единственное принципиальное отличие заключается в том, что генеративные модели, к которым относится GPT и ее аналоги, не только считывают информацию, но и выдают ее обратно на том же самом языке, на котором мы им эту входную информацию даем. Модели наподобие GENA относятся к так называемым энкодерам. Они умеют читать, но информацию, которую они выдают обратно, мы получаем только в понятном для компьютера формате, на вход подаем ДНК, а она нам на выходе — код.

— Расскажите поподробнее о том, почему точное расшифровывание геномных последовательностей является такой сложной задачей в современной биологии.

—Для начала надо понять, что современные биологи подразумевают под словом «расшифровывание». Раньше под этим процессом понимали составление последовательности химических оснований в ДНК. Расшифровали геном человека, написали последовательность букв. Эта задача уже не является сложной: методы прогрессируют, можно и быстро, и сейчас уже не очень дорого, при этом достаточно полно расшифровывать последовательности.

Понимание же смысла этих последовательностей — вызов. Вот мы получили для генома человека три миллиарда букв, есть у каждого генома несколько миллионов различий в этих длинных-длинных записях букв. У какого-то человека буква «А» поменялась на букву «Т» в такой-то позиции. И что? Интерпретация многих изменений науке неизвестна, ведь в подавляющем большинстве случаев, как буквы ни меняй, люди очень анатомически похожи: есть две руки и две ноги, человек — не муха дрозофила. Тем не менее большое количество маленьких изменений может вести к появлению очень важных различий. Например, кто-то заболеет диабетом, а кто-то нет. Эта информация рассеяна по всему огромному геному в виде точечных модификаций, каждая из которых по отдельности имеет очень незначительный эффект, но в сумме и при определенных связях между собой они приводят к значимым для нашей жизни последствиям.

— А чем использованные вами инструменты искусственного интеллекта отличаются от традиционных методов, используемых для изучения ДНК?

— Традиционные методы пытаются решать конкретную задачу: есть последовательность ДНК, есть поставленный ученым вопрос, будем искать ответ на этот вопрос тем или иным методом анализа. Мы сделали нечто новое.

Работа состоит из двух частей: создание некой общей модели, а потом уже ее использование для решения отдельных задач. При создании модели мы не ставили перед собой конкретную задачу, которая имела бы биологический смысл. Мы попытались научить компьютер понимать смысл ДНК и говорить на языке ДНК, чтобы с помощью этих навыков подойти к практическим вопросам.

— Получается, у GENA нет аналогов?

— Сама идея делать такие нейросети-трансформеры на ДНК впервые была озвучена в 2021 году, однако речь шла о существенно менее мощной модели, обученной на меньшем количестве данных. Она называлась DNABERT. Чуть позже одновременно вышли две большие работы в самых топовых журналах. Одна была представлена коллегами из Стэнфорда, вторая — биотех-стартапом InstaDeep в партнерстве с NVIDIA. Конкуренты у GENA очень мощные.

Первую версию модели мы опубликовали в 2022 году. Кстати, тогда первыми в мире обучили модель на самой полной версии генома человека T2T-CHM13. Официально подробное исследование и все семейство моделей GENA представили в январе 2025 года, но препринт выпустили «в мир» примерно полтора года назад. Он очень долго проходил рецензирование, потому что технология новая, очень много вопросов было о том, что это вообще такое и как инструмент использовать. Мы целых полтора года убеждали научное сообщество в том, что это по-настоящему новое и ценное направление.

У конкурентов ситуация была аналогичная: препринт они выпустили где-то полтора года назад, бок о бок с нами. Сейчас же как грибы после дождя — практически раз в пару недель — стали выходить новые модификации, специализированные наборы данных или маленькие изменения для архитектур.

Модель от ученых из Стэнфорда сфокусирована только на бактериальных данных. Хотя у нас есть специализированные версии для растений и дрожжей, именно бактериальных данных очень мало — мы в основном нацелены на человека и других животных. Разница с моделью InstaDeep заключается в том, что мы способны анализировать гораздо более длинные последовательности.

— Вы говорите о длине контекстного окна модели? Почему длина последовательностей так важна?

— Проблема всех языковых моделей заключается в том, что геномы огромны. ИИ-инструменты не в состоянии переварить их целиком и так или иначе изучают геном по кусочкам. В литературе есть длинные тексты, в которых каждая часть содержания очень важна для связности, а есть тексты наподобие сборника рассказов, в них каждое произведение независимо от другого. Так же и в ДНК: есть очень локальные процессы, а есть ситуации, когда убрать половину генома и понять, что происходит, просто невозможно.

Проект GENA с самого начала ведется группой «Биоинформатика» AIRI под руководством Ольги Кардымон, я и моя группа в ИЦиГ СО РАН отвечаем за экспертизу в генетике. Проблема памяти моделей находится в плоскости компьютерных наук, и здесь не обошлось без междисциплинарной коллаборации. Ранее коллеги из другой научной группы AIRI, МФТИ и Лондонского института математики разработали технологию рекуррентной памяти для анализа языка и иных текстов (RMT). Она позволяет моделям запоминать информацию из одних участков последовательности и использовать ее при анализе других участков. Они подключились к проекту и помогли интегрировать механизм рекуррентной памяти в GENA. Это на самом деле очень важная фишка нашей работы, и на ряде тестов мы подтверждаем, что такой нет ни у кого из конкурентов. Без обращения к механизму памяти модель принимает на вход до 36 000 пар оснований, а после как бы «читает» эти кусочки по 36 тыс., чтобы с помощью почерпнутых из них знаний анализировать еще более длинные последовательности.

— Если говорить о практическом применении, какие задачи наиболее интересны лично вам?

— Аннотация геномов, разметка геномов. Взять какой-то важный сельскохозяйственный вид и расшифровать его геном, не просто написать сочетание букв, а определить хотя бы, где в этом геноме находятся гены. Сейчас такая задача практически нерешаема без дорогих и долгих экспериментов, и GENA тоже пока еще не справляется с ней идеально, но мы активно работаем над тем, чтобы получилось.

Вторая задача, над которой мы активно работаем сейчас, — это задача предсказания активности генов в разных клетках разных организмов.

— Для чего это нужно?

— Например, для того, чтобы более правильно классифицировать, понимать, что за клетки перед нами находятся и какие гены в них активны. А это, соответственно, важная задача для фармакологии. Представьте себе процесс таргетирования раковой опухоли. Берется опухоль, и проводится анализ активности генов в ней, который позволяет понять, что это вообще за опухоль, из каких клеток она состоит, какие сигнальные пути в этих клетках работают, как можно повлиять на эту опухоль для того, чтобы ее наиболее специфично уничтожить, минимально затрагивая остальные клетки организма. Одна из задач, которую мы решаем с помощью GENA,— это такое понимание регуляции генов, активности генов и классификация клеток на основе активности генов.

— Какие ограничения текущих возможностей есть у инструмента и какие улучшения планируются в будущих версиях? Или же это все будет понятно только после лабораторной проверки предоставляемых GENA данных?

— Это два параллельных процесса. У таких моделей одно направление развития заключается в поиске эффективных применений и того, как их встраивать в существующие биотехнологические и биомедицинские задачи. Я очень общими словами обрисовываю применимость инструмента, говоря «аннотация генома», «анализ чувствительности к терапии», «поиск новых лекарств». Приходя искать партнеров — например, в фармкомпании,— нужно отвечать на вполне конкретные вопросы. Скажем: «У нас есть уже протокол терапии. На каком из этапов протокола вы можете решать задачу и какую?» Это очень непростые вопросы, ведь перед тем, как на них отвечать, нужно самим разобраться: как и с любой новой технологией, понять, как ее использовать наиболее эффективно. Это большая работа. Мы ее ведем.

Вторая задача, которую параллельно можно и нужно решать,— улучшение качества самих моделей. Об этом сейчас думают все, кто занимается ИИ. Масштабирование, которое хорошо проиллюстрировано на примере анализа естественного языка и бума чат-ботов. Если забыть про красивые заголовки о навороченных технических фишках, по факту внутри остается простой рецепт: больше данных плюс больше вычислений равно более качественный результат. Пока непонятно, насколько хорошо эта логика работает с геномами, и, конечно же, очень хочется попробовать.

Сейчас в модели 300 млн параметров. Цифра сама по себе неспециалисту ни о чем не скажет, но она хорошо понятна в сравнении. В популярных языковых моделях, которые активно обсуждаются по всему миру, десятки миллиардов параметров. На порядки больше, чем то, что мы используем для ДНК. При этом — у меня, наверное, профдеформация — кажется очевидным, что ДНК устроена гораздо сложнее, чем язык человека. Вся область изучения ДНК с помощью языковых моделей сейчас находится на уровне двухлетнего ребенка по сравнению с тем, что творится в анализе естественного языка. А задача-то перед нами стоит гораздо более сложная.

— Тем не менее вы говорите, что инструмент находится в открытом доступе. Как биологи могут найти и запустить его?

— Для тех, кто совсем не умеет запускать модели и не обладает минимальным биоинформационным бэкграундом, есть веб-сервис. Это онлайн-инструмент, в который можно ввести последовательность ДНК и получить несколько типовых аннотаций. У него, конечно, очень урезанный функционал. Мы создали его, чтобы познакомить биологов с нашей предметной областью и дать любому желающему коллеге возможность понять, может ли такое для него оказаться полезным.

Чтобы выжать максимум функционала, потребуются навыки программирования и биоинформатики, но для доступа не нужно использовать что-то специально биологическое или какую-то инфраструктуру AIRI. Модели максимально упрощены в использовании, и все необходимое находится в стандартных репозиториях на платформах Hugging Face и GitHub, которыми пользуются разработчики.

На фото: Доктор биологических наук, ведущий научный сотрудник группы «Биоинформатика» Института AIRI и Института цитологии и генетики СО РАН Вениамин Фишман. Фото из личного архива.

Подробнее