Сегодня в мире уделяется большое внимание наблюдению за состоянием окружающей среды. Оно позволяет прогнозировать стихийные бедствия, вовремя реагировать на изменения в экосистеме и тем самым предотвращать природные катастрофы.
Фото: Предоставлено Yandex Cloud
В этой работе ученые используют технологии машинного обучения. Цифровые системы экомониторинга анализируют качество воздуха, предсказывают возможные зоны распространения лесных пожаров и помогают выяснить, «кто проживает на дне океана».
Например, в глубинах Байкала — самого большого пресноводного озера в мире — обитает фито- и зоопланктон. С февраля 1945 года за ним беспрерывно наблюдают несколько поколений иркутских биологов. Проект «Точка №1», названный в честь станции возле поселка Большие Коты, официально признан самым долгим экологическим мониторингом в истории науки.
Каждые семь—десять дней ученые берут несколько проб воды в одном и том же месте на разной глубине озера. После этого их везут в лабораторию Научно-исследовательского института Иркутского университета, где биологи под микроскопом долгими часами изучают каждый образец. Они анализируют состав мельчайших водорослей, вручную пересчитывают планктонных рачков и червяков, которые ими питаются, и заносят всю информацию в специальные карточки. И так происходит уже 78 лет подряд.
За этой тяжелой рутинной работой стоит важная миссия — следить за тем, как чувствует себя Байкал. Дело в том, что планктон является важным элементом экосистемы озера и источником пищи для многих организмов. Если в составе проб происходят какие-то изменения, они становятся сигналом для ученых.
Победила естественность
За годы реализации проекта «Точка №1» биологи сильно прокачались в распознавании мельчайших организмов. Они без труда определяют, какие из 400 видов зоопланктона плавают в пробе воды. Проблема в том, что на такую идентификацию уходят тысячи часов в год, а большой объем бумажных отчетов сложно анализировать. Поэтому в 2021 году ученые НИИ биологии Иркутского государственного университета объединились с командой Yandex Cloud, IT-компанией MaritimeAI и фондом «Озеро Байкал». Совместно они начали разрабатывать нейросеть, которая бы самостоятельно различала и пересчитывала рачков следующие более 78 лет.
Чтобы алгоритм мог выполнять свою функцию, его предстояло обучить. Для этого команда использовала датасет с изображениями различных видов планктона и их размеченными характеристиками. Разработчики начали с самого простого — рачков, поскольку их легче всего распознать. Нейросеть проанализировала массив данных, научилась отличать байкальских эпишуров от омматогаммарусов, но, когда дело дошло до тестирования, возникла неожиданная проблема.
Собирать датасет разработчикам помогали ученые, которые подошли к задаче со всей ответственностью. С помощью микроскопа они сделали десятки тысяч фотографий рачков. Однако реальные изображения проб воды сильно от отличались от идеальных картинок. В действительности на поверхностях всех организмов скапливались водоросли, что мешало алгоритму распознавать объекты. К такому разработчики нейросеть не готовили — пришлось переформировать датасет и скорректировать обучение.
Не только хард, но и софт
Перед командой проекта стояла непростая задача — сделать инструмент, который будет эффективным, удобным и, что немаловажно, тиражируемым. Ведь на Земле существует огромное количество других водоемов, чьи экосистемы пока не изучены.
Каждому члену команды была отведена своя роль. За создание сценария проекта отвечал аналитик, за разработку нейросети — программисты, за проверку ее «жизнеспособности» — тестировщики. Массивом данных для обучения управлял data scientist, а UX-дизайнерам необходимо было сделать продуманный пользовательский интерфейс, понятный любому ученому, который будет с ним взаимодействовать.
Связующим звеном всего процесса стал менеджер, который помогал биологам и разработчикам найти общий язык. Пусть диалог завязался не с первого раза, но зато история с фотографиями лишний раз продемонстрировала, что в IT-сфере недостаточно быть хорошим программистом. Большую роль играют soft skills: умение коммуницировать, выстраивать общение с людьми из другой сферы и работать на стыке дисциплин.
Особенно важно это учитывать тем, кто только выбирает в профессию. Ведь со временем применение искусственного интеллекта в самых разных областях будет только расти. Поэтому на онлайн-фестивале «8 бит» для школьников и учащихся колледжей «Яндекс» не ограничивается рассказом о digital-профессиях и мире технологий. Участники знакомятся с тем, как строится командное взаимодействие, а на мастер-классах попробуют себя в программировании и управлении проектами.
Стал такой самостоятельный!
Сотрудничество биологов и разработчиков вышло результативным — иркутские ученые уже применяют алгоритм на практике. Он различает наиболее часто встречающиеся виды рачков, заполняет карточки с отчетами, а изображения автоматически передает в облачный сервис Yandex Cloud, на базе которого разрабатывалась нейросеть.
Весь процесс происходит быстро, биологам остается только проверить и при необходимости скорректировать результат. И хотя у системы экомониторинга порой возникают трудности с идентификацией зоопланктона, она продолжает совершенствовать свои навыки на каждом новом потоке изображений.
Придерживаясь принципа доступности технологий, команда Yandex Cloud выложила в open source исходный код алгоритма машинного обучения и датасеты. Теперь биологи со всего мира могут брать за основу эти данные и адаптировать их для своих исследований.
Сможет все сам?
Фото: Предоставелно Yandex Cloud
В последние годы ученые все активнее используют машинное обучение в своей работе. Это делает науку привлекательной среди молодых людей, для которых технологии — неотъемлемая часть жизни. Многие открытия происходят на пересечении сразу нескольких сфер. Уже никого не удивляет химик, занимающийся программированием, или разработчик, который учит искусственный интеллект создавать новые лекарства.
Алгоритмы не могут полностью заменить ученых. Контролировать проведение исследования и интерпретировать результаты — по-прежнему прерогатива человека. Искусственный интеллект выполняет другую важную функцию, избавляя людей науки от многочасовой рутины. Это дает им возможность заниматься по-настоящему прорывными и интересными вещами.
Именно такая роль возложена на байкальский проект. Нейросеть позволила иркутским ученым сосредоточиться на научных задачах и анализе собранных данных. Теперь у биологов есть время на проверку большего количества гипотез. Они могут расширить проект «Точка №1», заглянуть в глубины каждого залива Байкала и выяснить, как устроена одна из самых сложных экосистем мира.
Сергей Золотов, старший менеджер проектов платформы Yandex DataSphere, и Антон Ермилов, руководитель команды разработки эффективных ML-моделей, ответили на вопросы «Ъ-Науки»:
— Почему команда Yandex Cloud решила научить нейросеть анализировать пробы воды из озера Байкал?
— Нейросеть для экологического мониторинга Байкала — особый проект и для нас, и для всего сообщества, невероятный по своему масштабу и значимости. Одна из приоритетных задач облачной платформы Yandex Cloud — создать надежный трамплин для легкого использования облачных сервисов в исследовательских проектах. В Yandex Cloud ученые уже реализовали множество проектов с использованием нейросетей: запускали систему мониторинга урожая, создавали алгоритм для беспилотного гоночного болида, исследовали темную материю, создавали систему мониторинга биоразнообразия растений Алтая.
Для нас важно делать так, чтобы благодаря технологиям люди могли уделять больше времени научной работе, которую невозможно автоматизировать. Даже в далеких от мейнстрима цифровизации отраслях.
— Легко ли научить нейросеть?
— Для обучения нейросети необходим датасет — набор качественных изображений для распознавания и классификации. Чем полнее этот датасет, тем качественнее и быстрее обучается нейросеть.
— Как проходило обучение?
— В проекте мониторинга Байкала биологи предоставили почти 50 тыс. изображений проб, из которых 20 тыс. было использовано для обучения алгоритмов.
— Как именно алгоритм распознает изображения?
— Изображения проб с микроскопов автоматически передаются в облачную платформу Yandex Cloud. Алгоритм определяет мельчайших рачков, их видовую принадлежность и формирует отчетные карточки. Нейросеть продолжает обучаться в сервисе для разработки и эксплуатации ML-алгоритмов Yandex DataSphere.
— Как нейросеть помогает ученым?
— Сейчас алгоритм умеет работать с 70 формами планктона и продолжает обучаться в облачном сервисе для разработки и эксплуатации ML-алгоритмов Yandex DataSphere. Внедрение искусственного интеллекта упрощает работу биологов, которые много лет подсчитывали и определяли микроорганизмы вручную.
— Как, на ваш взгляд, это направление будет развиваться дальше?
— В будущем участники проекта планируют масштабировать мониторинг и отслеживать состояние воды в других точках Байкала. Кроме того, команда проекта выложила в open source исходный код алгоритма машинного обучения для экомониторинга Байкала. Технология помогает анализировать пробы воды, определять и классифицировать содержащиеся в ней микроорганизмы. Теперь биологи и ML-специалисты по всему миру смогут использовать нейросеть для разработки собственных систем мониторинга водоемов и отслеживать важные экологические тренды. Алгоритм опубликован на GitHub по открытой лицензии Apache 2.0.
«Яндекс» не только систематически выкладывает в open source свои собственные решения, но и помогает развивать открытый исходный код в совместных проектах со сторонними разработчиками. Яндекс является лидером среди российских компаний по вкладу в open source, по данным ossindex. Публикуя алгоритм экомониторинга с MaritimeAI, мы продолжаем следовать нашим главным принципам. Разработка поможет не просто решить задачу конкретной научной группы, а тестировать гипотезы о состоянии водных объектов повсюду. Ведь Байкал — далеко не единственное место на планете, где ведется подобный мониторинг.
Подготовлено при поддержке Yandex Cloud.