В Центре искусственного интеллекта НИУ ВШЭ написали программное обеспечение для предсказания расположения элементов генома человека. Ученые использовали методы глубинного обучения на основе омиксных данных о различных молекулярных компонентах организма.
Фото: Getty Images
Исследование выполнено в соответствии с задачами федерального проекта «Искусственный интеллект» национального проекта «Цифровая экономика». Разработка поможет генетическим лабораториям расширить интерпретацию результатов персональной диагностики, а фармацевтическим компаниям будет полезна при поиске таргетов в разработке лекарств.
«Разработанное ПО — уникальное решение с широким спектром функциональных возможностей. Оно создано с учетом стремительно развивающейся области архитектур глубинного обучения. Модули нейронных сетей легко заменяемы на будущие SOTA-модели. Агрегация и предобработка больших объемов омиксных данных — преимущество, которое сэкономит пользователям недели, если не месяцы трудоемкой работы»,— говорит Мария Попцова, руководитель проекта «Искусственный интеллект в биоинформатике» Центра ИИ НИУ ВШЭ.
Пользователь в веб-браузере может загружать на сервер омиксные данные — совокупность информации о различных молекулярных компонентах организма, таких как гены, белки, метаболиты и другие. В основе этого понятия лежит префикс «омикс», который обозначает исследование глобального уровня в организме. Далее необходимо выбрать ряд параметров обработки: тип данных, аннотации геномных функциональных элементов для обучения модели, полный геном анализируемого типа и архитектуру нейронной сети. После этого программа создает модель и запускает процесс ее обучения.
На выходе пользователь получает данные о вероятности нахождения элемента в выбранной позиции, статистический анализ геномных признаков, аннотацию участков для исследуемого генома.
В России по федпроекту «Искусственный интеллект» нацпроекта «Цифровая экономика» создано шесть исследовательских центров по ИИ. Они функционируют на базе Сколтеха, Университета ИТМО, МФТИ, НИУ ВШЭ, Университета Иннополис и Института системного программирования РАН.
Мария Попцова, руководитель проекта «Искусственный интеллект в биоинформатике» Центра ИИ НИУ ВШЭ:
— Зачем предсказывать расположение элементов генома человека?
— Геном человека содержит в себе много слоев кодировки информации, расшифровка которых позволит создавать программы и алгоритмы, которые бы управляли работой генома. Например, возвращали его из состояния болезни в нормальное состояние. Для этого надо понимать не только где функциональный элемент закодирован, но и с какими элементами с других слоев кодировки он работает вместе.
— При диагностике каких заболеваний это полезно?
— Практически все заболевания в той или иной степени имеют генетическую основу. В первую очередь это онкологические заболевания. Далее список можно продолжить неврологическими, психическими, сердечно-сосудистыми, автоиммунными и рядом других заболеваний.
— На основании каких показателей производится анализ данных?
— Анализ данных производится на основе самой геномной последовательности, ее структурных биофизических свойств, а также полногеномных экспериментальных карт расположения эпигенетических маркеров. Преимущество нашего подхода в том, что можно добавлять информацию из экспериментов будущих технологий секвенирования.
— В каком виде человек получает «отчет» от программы? Как быстро приходит ответ?
— Программа выдает полногеномную карту расположения интересующего функционального элемента (это может быть альтернативная структура ДНК/РНК, эпигенетическая метка, элемент организации хроматина). В зависимости от сложности геномного элемента ответ может прийти в течение нескольких минут или дней.
— Насколько он точен?
— Точность предсказаний превышает 90% для большинства задач.
— Кто сможет пользоваться этим ПО? Доктор, медцентр или сам пациент?
— ПО достаточно сложное как для доктора, так и для пациента. Пользоваться им может программист с минимальным представлением о запуске и установке программ, о написании скриптов на «питоне» и пониманием принципов машинного обучения. В медцентре необходимо иметь отдел биоинформатики, специалисты которого могут быть обучены использовать данное ПО.
— Нужна ли будет какая-то расшифровка полученных данных?
— Как таковой расшифровки не требуется. Полученные данные представляют собой координаты расположения функциональных элементов по всему геному. Дальше можно будет проанализировать сами последовательности и произвести статистический анализ на ассоциации омиксных признаков с исследуемыми элементами.
— Как, на ваш взгляд, это направление будет развиваться в будущем?
— На мой взгляд, как и объем данных, так и совершенствование архитектур нейронных сетей будут продолжать поражать воображение. Натренированные на миллионах экспериментальных данных системы ИИ смогут видеть малейшие флуктуации в нормальной работе генома и предсказывать, каким образом и с помощью какого другого геномного элемента можно переключать программы в клетках. Как всегда в научной работе, это палка о двух концах: одним и тем же научным открытием можно творить добро, а можно творить зло.
Подготовлено при поддержке АНО «Национальные приоритеты»