Генетика в «цифре»

Генетические технологии

28.11.2023

Темпы цифровизации генетической информации в мире опережают рост глобальной сферы данных. Такие данные приводятся в статье ученых НИЦ «Курчатовский институт», оценивающей мировые тенденции в данной области. Работа опубликована в международном научном журнале Nanobiotechnology Reports.

В мире существуют и регулярно обновляются несколько крупных баз данных генетической информации, скорость их роста сейчас составляет от 22 до 41% в год. Для сравнения: по прогнозу, годовой рост всех оцифрованных данных в мире составит на промежутке между 2020 и 2025 годами только 23%.

Ученые отмечают, что сегодня получение и оцифровка генетической информации уже стали отработанным технологическим процессом. Более сложные задачи возникают на следующем этапе: рост объема данных опережает развитие средств их анализа и принятия решений на этой основе.

«Анализ данных включает в себя несколько этапов, различных по трудоемкости. Нужно учитывать и процессорное время, а также время, затраченное на выполнение работы специалистами и интерпретацию получаемых результатов, — рассказывает Алексей Корженков, научный сотрудник лаборатории «Геномная фабрика» Курчатовского геномного центра. — Конечно, мощность вычислительных устройств постоянно растет. Однако основную долю ресурсов сейчас дают графические ускорители, а не центральный процессор. А генетические данные имеют свою специфику, и далеко не для всех задач есть эффективные алгоритмы и программное обеспечение, позволяющее эксплуатировать графические ускорители. Полностью автоматическая обработка и отсутствие тщательного контроля могут приводить к накоплению ошибок в тех публичных базах данных, где материал не проходит ручную проверку. В итоге приходится балансировать между качеством и количеством обработанной информации».

Помочь в обработке генетической информации могут искусственный интеллект и методы машинного обучения. Ученые Курчатовского геномного центра выделяют несколько направлений, где это возможно: получение трехмерных структур биологических молекул и предсказание их взаимодействий с различными веществами, задачи классификации биологических и биомедицинских данных, предсказание экспрессии генов и некоторые другие задачи. Однако роль искусственного интеллекта не стоит переоценивать.

«Это мощная технология, но на текущем уровне ИИ зачастую работает по принципу «черного ящика», выдавая результат и не объясняя закономерностей. А наша задача — понять законы, по которым работают биологические системы. Сегодня уже есть огромное количество задач, где классические алгоритмы позволяют быстро и эффективно обрабатывать данные» — поясняет Алексей Корженков.

По словам ученых, сегодня приоритетом можно считать уже не сбор и накопление генетических данных, а развитие производительных и функциональных инструментов их обработки и подготовка для этого квалифицированных специалистов.

Есть и еще один важнейший аспект, который необходимо учитывать при работе с большими массивами генетических данных, — безопасность. Экспоненциальный рост объема генетической информации открывает огромные возможности для медицины, биотехнологий, сельского хозяйства, но в то же время создает новые угрозы.

«Генетические технологии, как ничто иное, максимально близки к ядерным технологиям по возможности своего двойного применения, — комментирует Зоригто Намсараев, начальник лаборатории синтетической биологии Курчатовского геномного центра. — Поэтому необходимо создавать механизмы государственного и межгосударственного контроля в этой области с широким привлечением и научного сообщества, и бизнеса. Нам еще предстоит найти баланс между необходимостью дальнейших научных исследований, соображениями безопасности, а также требованиями соблюдения конфиденциальности персональных данных и других правовых и этических норм».

Фото: Пресс-центр НИЦ «Курчатовский институт»

Подробнее