Машинное обучение поможет определению функций генов сельскохозяйственных растений
Сотрудники Института проблем передачи информации им. А.А. Харкевича РАН совместно с коллегами из Сколтеха и МФТИ разработали алгоритм, который позволит упростить предсказание функций генов сельскохозяйственных растений. Это, в свою очередь, поможет ускорить селекцию сортов с необходимыми характеристиками. Алгоритм базируется на межвидовом сравнении профилей экспрессии (мест активности) генов с использованием методов машинного обучения. Результаты работы опубликованы в журнале PLOS Computational Biology. Работа поддержана Министерством науки и высшего образования Российской Федерации и Российским научным фондом.
Увеличение численности населения Земли и нарастание аномальных климатических явлений ставят перед сельским хозяйством задачи по выведению более урожайных и более устойчивых к неблагоприятным условиям среды сортов. В последние годы активно развиваются новые методы проведения селекционных работ: геномная селекция и направленное редактирование. Одно из основных препятствий для их широкого применения — недостаток информации о функциях генов, контролирующих те или иные хозяйственно значимые признаки.
С развитием новых технологий секвенирования определение последовательности генома сильно упростилось. Однако это только первый шаг на пути к пониманию механизмов регуляции развития, которые подлежат корректировке для придания растениям необходимых свойств. Прийти к такому пониманию помогает сравнение сельскохозяйственных объектов с модельными видами: это позволяет ограничить круг генов-кандидатов для дальнейшей работы.
Функции генов модельного растения резуховидки Таля, Arabidopsis thaliana хорошо изучены. Однако предположение, что у сходных по последовательности генов растений похожи и функции, не всегда верно. Если на молекулярном уровне, как правило, это действительно так, то на уровне организма часто происходит модификация биологических функций генов за счет перенастройки их регуляции без значимого изменения последовательностей. Например, ген начинает работать в других органах или при других условиях. Задача усложняется особенностями эволюции генома растений: полиплоидизацией (многократные удвоения) с последующим изменением функции появившихся дополнительных генов.
Участники научной коллаборации между ИППИ РАН, Сколтехом и МФТИ разработали метод, позволяющий существенно улучшить процедуру сравнения функций генов у разных видов. Метод основан на привлечении дополнительных данных о гене, помимо его последовательности: информации о том, в каких органах и тканях или при каких условиях он экспрессируется (активен). В большинстве случаев сохранение профиля экспрессии свидетельствует о сохранении биологической функции. Поскольку прямое сравнение уровней экспрессии между видами затруднено (из-за разной структуры и темпов развития), авторы использовали подходы, основанные на машинном обучении, не требующем учета структуры растения. Модельный объект Arabidopsis thaliana сравнивали с гречихой и кукурузой Предложенный метод позволил успешно разделить близкие по последовательностям гены сельскохозяйственных объектов на те, которые имеют ту же функцию, как у модельного объекта, и те, функция которых претерпела изменения.
«В настоящее время мы развиваем этот подход, в том числе вовлекая в анализ данные о таких важных сельскохозяйственных культурах, как огурец, виноград, подсолнечник и др. В результате мы надеемся сделать инструмент, облегчающий планирование экспериментов по созданию новых сортов. Исследователи, создающие новые линии, смогут понять, соответствует ли функция интересующего их гена модельному объекту. В случае соответствия можно будет переходить к экспериментам по редактированию. В случае же, когда функция претерпела изменения, будет возможно избежать ошибок, связанных с неверными ожиданиями от изменения в таких генах», — пояснил ведущий автор исследования, заведующий лабораторией геномики растений ИППИ РАН Алексей Пенин.
Источник: Институт проблем передачи информации им. А.А. Харкевича РАН