Как сэкономить генетикам несколько недель работы

Разработано программное обеспечение, предсказывающее расположение элементов генома человека

В Центре искусственного интеллекта НИУ ВШЭ написали программное обеспечение для предсказания расположения элементов генома человека. Ученые использовали методы глубинного обучения на основе омиксных данных о различных молекулярных компонентах организма.

Фото: Getty Images

Фото: Getty Images

Исследование выполнено в соответствии с задачами федерального проекта «Искусственный интеллект» национального проекта «Цифровая экономика». Разработка поможет генетическим лабораториям расширить интерпретацию результатов персональной диагностики, а фармацевтическим компаниям будет полезна при поиске таргетов в разработке лекарств.

«Разработанное ПО — уникальное решение с широким спектром функциональных возможностей. Оно создано с учетом стремительно развивающейся области архитектур глубинного обучения. Модули нейронных сетей легко заменяемы на будущие SOTA-модели. Агрегация и предобработка больших объемов омиксных данных — преимущество, которое сэкономит пользователям недели, если не месяцы трудоемкой работы»,— говорит Мария Попцова, руководитель проекта «Искусственный интеллект в биоинформатике» Центра ИИ НИУ ВШЭ.

Пользователь в веб-браузере может загружать на сервер омиксные данные — совокупность информации о различных молекулярных компонентах организма, таких как гены, белки, метаболиты и другие. В основе этого понятия лежит префикс «омикс», который обозначает исследование глобального уровня в организме. Далее необходимо выбрать ряд параметров обработки: тип данных, аннотации геномных функциональных элементов для обучения модели, полный геном анализируемого типа и архитектуру нейронной сети. После этого программа создает модель и запускает процесс ее обучения.

На выходе пользователь получает данные о вероятности нахождения элемента в выбранной позиции, статистический анализ геномных признаков, аннотацию участков для исследуемого генома.

В России по федпроекту «Искусственный интеллект» нацпроекта «Цифровая экономика» создано шесть исследовательских центров по ИИ. Они функционируют на базе Сколтеха, Университета ИТМО, МФТИ, НИУ ВШЭ, Университета Иннополис и Института системного программирования РАН.

Мария Попцова, руководитель проекта «Искусственный интеллект в биоинформатике» Центра ИИ НИУ ВШЭ:

— Зачем предсказывать расположение элементов генома человека?

— Геном человека содержит в себе много слоев кодировки информации, расшифровка которых позволит создавать программы и алгоритмы, которые бы управляли работой генома. Например, возвращали его из состояния болезни в нормальное состояние. Для этого надо понимать не только где функциональный элемент закодирован, но и с какими элементами с других слоев кодировки он работает вместе.

— При диагностике каких заболеваний это полезно?

— Практически все заболевания в той или иной степени имеют генетическую основу. В первую очередь это онкологические заболевания. Далее список можно продолжить неврологическими, психическими, сердечно-сосудистыми, автоиммунными и рядом других заболеваний.

— На основании каких показателей производится анализ данных?

— Анализ данных производится на основе самой геномной последовательности, ее структурных биофизических свойств, а также полногеномных экспериментальных карт расположения эпигенетических маркеров. Преимущество нашего подхода в том, что можно добавлять информацию из экспериментов будущих технологий секвенирования.

— В каком виде человек получает «отчет» от программы? Как быстро приходит ответ?

— Программа выдает полногеномную карту расположения интересующего функционального элемента (это может быть альтернативная структура ДНК/РНК, эпигенетическая метка, элемент организации хроматина). В зависимости от сложности геномного элемента ответ может прийти в течение нескольких минут или дней.

— Насколько он точен?

— Точность предсказаний превышает 90% для большинства задач.

— Кто сможет пользоваться этим ПО? Доктор, медцентр или сам пациент?

— ПО достаточно сложное как для доктора, так и для пациента. Пользоваться им может программист с минимальным представлением о запуске и установке программ, о написании скриптов на «питоне» и пониманием принципов машинного обучения. В медцентре необходимо иметь отдел биоинформатики, специалисты которого могут быть обучены использовать данное ПО.

— Нужна ли будет какая-то расшифровка полученных данных?

— Как таковой расшифровки не требуется. Полученные данные представляют собой координаты расположения функциональных элементов по всему геному. Дальше можно будет проанализировать сами последовательности и произвести статистический анализ на ассоциации омиксных признаков с исследуемыми элементами.

— Как, на ваш взгляд, это направление будет развиваться в будущем?

— На мой взгляд, как и объем данных, так и совершенствование архитектур нейронных сетей будут продолжать поражать воображение. Натренированные на миллионах экспериментальных данных системы ИИ смогут видеть малейшие флуктуации в нормальной работе генома и предсказывать, каким образом и с помощью какого другого геномного элемента можно переключать программы в клетках. Как всегда в научной работе, это палка о двух концах: одним и тем же научным открытием можно творить добро, а можно творить зло.

Подготовлено при поддержке АНО «Национальные приоритеты»

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...