Искусственный отбор

Роман Еремин — о том, как устроены современные исследования и дизайн новых материалов

Ученые из Института AIRI, Сколтеха и Сбербанка совместно с коллегами из РХТУ и ИФХЭ РАН исследовали устойчивость кристаллических структур для хранения и последующего использования технеция — одного из основных радиоактивных компонентов отходов атомной энергетики. Предсказания термодинамических свойств сотен тысяч атомных конфигураций технеция и углерода получили с помощью машинного обучения. Значит ли это, что искусственный интеллект стал на шаг ближе к пониманию естественных наук?

Роман Еремин

Роман Еремин

Фото: из личного архива

Роман Еремин

Фото: из личного архива

Как материаловеды работают с ИИ, что такое дважды синтетическая наука и каковы возможности открытия революционного материала, «Ъ-Наука» спросил у Романа Еремина, кандидата физико-математических наук, руководителя научной группы «Дизайн новых материалов» Института AIRI.

— Поиск материалов для «вечного» хранения отходов атомной энергетики. В чем главная научная сложность этой задачи? Почему нельзя просто взять и использовать какой-то из известных материалов — например, бетон или свинец?

— Хотя технеций занимает свое естественное положение в таблице Менделеева, он был синтезирован человеком. Очень долгое время этот элемент нигде не находился в природе в чистом виде или в составе соединений, как, скажем, железо или даже уран. Период полураспада самого стабильного изотопа технеция составляет около четырех миллионов лет, и, даже если он был образован, как и ряд других элементов, в результате астрофизических процессов, спустя какое-то время, его просто не осталось в земной коре в достаточном для обнаружения количестве.

У технеция вообще нет стабильных изотопов, то есть нет такого состояния ядра, которое было бы устойчиво сколь угодно долго и не распадалось. Получается, что с момента своего появления и до полного распада элемент остается радиоактивным. Это и есть корень проблемы, ведь технеция образуется очень большое количество при распаде урана во время работы ядерных реакторов.

Если какой-то элемент сохраняет свою радиоактивность на протяжении такого большого периода времени, это значит, что его можно закопать, заковать в бетон или свинец, но нужно быть уверенным, что за время, превышающее период полураспада, то есть за десятки миллионов лет, с этим хранилищем ничего не случится.

Один из вариантов, который давно обсуждается в научном сообществе,— заковать технеций не в физическое хранилище, а сделать его химическое связывание с другим достаточно распространенным элементом, углеродом, и образовать таким образом карбид. Химическая связь не устаревает и не становится слабее с течением времени. Такое хранилище может стать более надежным для фиксации технеция, и мы точно будем знать, что он не попадет в грунтовые воды, не вымоется и не войдет в состав других веществ, путешествующих по земной коре. Возможны и другие применения таких матриц — например, для превращения технеция в более полезный рутений.

— Если мы говорим о материале, который должен просуществовать миллионы лет, то как определить критерии его «пригодности»? На какие свойства вы смотрите в первую очередь сегодня, в 2026 году, и можно ли эти сложные требования «объяснить» компьютеру для автоматического поиска с помощью ИИ?

— Мы опираемся на фундаментальное свойство, определяющее устойчивость материала — энергию формирования конкретной структуры с заданным химическим составом. Сравнение проводится с наиболее устойчивыми аллотропными модификациями чистых элементов. Например, для карбида технеция референсами становятся технеций в металлическом состоянии и углерод в аллотропной форме графита, который термодинамически более устойчив, чем алмаз. Таким образом, мы определяем величину энергетического эффекта от связывания технеция и углерода по сравнению с их существованием по отдельности.

Однако это не окончательная оценка. Существует множество расчетных значений энергии формирования, и их необходимо сравнивать между собой. Возможна ситуация, когда есть более устойчивая конкурирующая структура с меньшей энергией, но иным составом, и тогда при попытке синтеза мы получим именно ее плюс, например, какой-то чистый элемент. Важно быть уверенным не только в корректности расчета для потенциально новой структуры, но и в отсутствии конкурирующих фаз, которые могут поставить под вопрос ее устойчивость.

Если таких фаз не существует, можно говорить о термодинамической устойчивости структуры, чаще всего — об устойчивости при заданных условиях. Так открывают новые материалы и структурные реализации. Это не дает абсолютно никакой гарантии, но, если в рамках конкретного исследования не найдено контраргументов, структура считается потенциально устойчивой как минимум до тех пор, пока такие аргументы не появятся.

— Получается, ваша работа — путь бесконечного сравнения?

— В жизни вообще все познается в сравнении, но поиск новых материалов работает скорее по принципу отсеивания заведомо невозможных вариантов. Очевидно, что никто не станет экспериментально проверять структуры, которые даже в расчетах оказались неустойчивыми в сравнении с другими известными системами. В нашей работе такие примеры тоже встречались, это часть процесса.

— Расскажите о таких случаях.

— В прошлом году мы с коллегами из Томского политехнического университета, Сколтеха и «Сбера» работали над ИИ-моделью для поиска новых сверхтвердых материалов на основе соединений бора и вольфрама. В ходе исследования выяснилось, что высший борид вольфрама поддается химической модификации, но из восьми проверенных металлов к образованию устойчивых структур нас привели только три — молибден, ниобий и тантал. Соответственно, экспериментаторам на проверку мы направили прогнозы только по ним.

— Из-за применения ИИ экспериментаторам может прибавиться работы по синтезу, а как вообще теоретическое материаловедение изменилось за последние 10–15 лет?

— Изменения за последние годы были существенными, главным образом потому, что менялась сама канва исследовательской деятельности. Вспомните о четырех парадигмах научных исследований по Джиму Грею (ученый в области теории вычислительных систем; в 1998 году награжден премией Тьюринга за вклад в развитие баз данных.— “Ъ-Науки”). Мы уже пришли к четвертой парадигме, основанной на данных. До этого была третья, базировавшаяся на моделировании, большом количестве компьютерных моделей и симуляций. Компьютерное моделирование заложило основу для подходов, основанных на данных.

Второй важный момент, который изменил материаловедение,— появление скрининговых технологий. Этому, без сомнения, способствовало появление баз, содержащих в том числе и экспериментальные данные. И хотя мы понимаем, что они неполны и в них всегда есть пропуски, о которых заранее неизвестно, скрининг больших объемов структурированной информации и данных о химическом составе множества веществ вывел область на новый уровень именно в смысле количества вариантов, которые можно было перебрать. Сейчас расчетные подходы, такие как теория функционала плотности и другие, активно используются для генерации синтетических данных. Большая часть архитектур и моделей, с которыми мы работаем, обучаются уже не на экспериментальных, а именно на расчетных данных.

Сейчас, кстати, в материаловедении идет очень активный поиск реализации генеративного ИИ и создания таких же моделей, как для изображений и видео. Если в области молекулярных и даже белковых структур, у биологов, подвижки в виде AlphaFold3 от DeepMind или DiMA от нашей команды биоинформатиков есть, то для кристаллических структур хороших генеративных моделей пока не придумали, несмотря на серьезные усилия даже в больших технологических компаниях.

— Почему так?

— Хотя я не биолог, первое, на мой взгляд, важное отличие заключается в том, что такие модели способны предсказывать последовательности аминокислот, а также структуру белка по этим последовательностям. В некотором смысле задача распадается на две независимые, но как минимум для одной из них, а именно генерации последовательностей, есть внушительный обучающий набор в почти полмиллиарда примеров. Второе важное отличие: чаще всего для таких систем речь идет об ограниченном наборе химических элементов — водород, углерод, кислород, азот, сера. То, что типично для комплекса аминокислот. Это существенно снижает сложность пространства поиска. В таких условиях как предсказательные, так и генеративные модели работают лучше. Они улавливают частотные закономерности и на их основе генерируют новые варианты.

Экспериментально известных кристаллических структур существенно меньше. Для неорганических соединений — порядка двухсот тысяч, для молекулярных, органических и металлоорганических структур, вместе взятых,— менее полутора миллионов. При этом сложность пространства поиска, если не ограничивать химию, колоссальная. Оно включает все многообразие элементов таблицы Менделеева. Даже если отбросить радиоактивные и неустойчивые элементы, останутся десятки химических элементов. Полное пространство поиска оценивается как десять в сотой степени, тогда как для молекулярных систем оно составляет порядка десяти в шестидесятой. При этом молекулярных систем известно на уровне сотен миллионов. Получается, даже при сравнении с молекулами для кристаллов у нас крайне мало данных в масштабе полного пространства химического поиска.

— Какие методы в дизайне и поиске материалов сейчас самые популярные? Чем занимаются наиболее передовые научные коллективы?

— Первое направление — методы, основанные на эволюционных алгоритмах для поиска новых структур. Их главный плюс в том, что мы никак не ограничиваем структурный тип, а лишь фиксируем составы. Но есть и существенный минус. Из-за быстро растущей комбинаторной сложности мы ограничены в размере модельных ячеек. Если ячейки маленькие, мы можем просто не найти в них некоторые структуры. Такие пропуски, например, были обнаружены и для карбидов технеция, о которых я говорил ранее. Наверное, всегда существует компромисс между универсальностью подхода и глубиной поиска.

Другая группа методов, с которой работают в данный момент, отталкивается от известных соединений. И тут я бы выделил два направления. В первом мы берем уже известные структуры и пробуем менять их химический состав, добавлять дефекты, смотреть, как меняются свойства. Во втором берем уже синтезированные вещества с известной структурой и, возможно, свойствами и проверяем их пригодность для новой практической задачи. Например, ионной проводимости. Экспериментально такие проверки делают не всегда, потому что они дороги и сложны, но расчетами это делать можно, даже если в используемой базе данных есть только структура.

По первому направлению есть пример подхода от коллектива из Google Deepmind. В конце 2023 года они представили ИИ-модель под названием GNoME. Она берет известные структуры и изменяет их химический состав, а не создает их с нуля, как бы это происходило с использованием генеративного ИИ. Такой подход позволяет открывать потенциально новые соединения в огромных количествах и в широком диапазоне составов. В научном сообществе, однако, результаты вызвали довольно неоднозначную реакцию. Во-первых, метод обнаруживает уже известные соединения, которых по каким-то причинам не было в используемой базе данных. Во-вторых, не исключено, что найденное таким образом потенциально устойчивое соединение на самом деле не может быть синтезировано. Тут мы снова вспоминаем о возможной нехватке данных о все тех же конкурирующих фазах, из-за отсутствия информации о которых многие структуры только кажутся устойчивыми.

Наконец, существует большой пласт работ по ИИ-генерации в прямом смысле, о котором мы уже успели поговорить. На основе личного опыта могу добавить, что задача сгенерировать новую структуру в новом структурном типе с новым химическим составом решается скорее на уровне случайного предсказателя. Тут в качестве альтернативы можно сгенерировать много случайных или псевдослучайных вариантов из некоторого пространства возможностей и с той же или даже большей вероятностью угадывать устойчивые реализации. Есть и попытки направленного дизайна с оптимизацией целевого свойства, но такие подходы снова сталкиваются со спецификой генерации, обученной на малом количестве данных.

Сами направления устоялись и сильно не меняются год от года. Каждое занимает свою нишу. Выделять лидеров в нашей сфере сложно, потому что все меняется очень быстро. Конечным мерилом предсказания всегда был и остается эксперимент. Я сейчас похвалю нас или кого-то из коллег за точечные, но валидируемые результаты, а через месяц новая архитектура или уникальный подход смогут делать все то же за меньшее время или эксперимент подтвердит 90% прогнозов GNoME, несмотря на весь проявляемый скепсис.

— Идет ли сейчас гонка за открытие принципиально новых классов материалов? Зачем мы постоянно ищем их? Не хватает того, что есть, или оно требует замены?

— Мне кажется, сообщество уже давно пришло к тому, что мы не стремимся ничего и ничем полностью заменить. Наступила эпоха технологической диверсификации. Любую задачу можно решить множеством способов. Например, постлитиевые технологии не призваны прямо сейчас вытеснить литиевые источники тока. Это высокотехнологичная, хорошо проработанная с 1991 года область, и предлагать ей полную альтернативу крайне сложно. Речь идет о создании чего-то другого, альтернативного, для тех же задач, скажем, новых источников тока, которые в индустриальных приложениях окажутся дешевле литиевых или устойчивее их при низких температурах.

Человечество на протяжении всей истории было заложником материалов, доступных ему в конкретный период. Человек из каменного века проиграл бы в производительности труда представителю бронзового, а тот — представителю железного. При этом каменный век длился намного дольше бронзового.

Новые материалы призваны создавать или менять набор доступных технологий, а скорость его изменения напрямую обуславливает то, как быстро мы можем менять нашу жизнь и даже способы познания. Например, до 1911 года человечество не сталкивалось экспериментально со сверхпроводимостью. Сегодня передний край науки немыслим без сверхпроводящих магнитов, создающих огромные магнитные поля, например, в Большом адронном коллайдере. Свойство материала, открытое в начале ХХ века, привело к качественному изменению науки и появлению новых направлений. Не могу сказать, что это гонка. Скорее, естественный процесс, который будет идти вне зависимости от того, какими инструментами мы пользуемся. А ИИ как инструмент может влиять на скорость этого процесса.

— Может ли ИИ стать незаменимым для материаловеда и что для этого нужно? Решить проблему физически интерпретируемых моделей и «черных ящиков»?

— Мне в этом ключе очень нравится одна инфографика, и речь даже не столько про сами модели, сколько про стоимость хранения данных. Если посмотреть, как с 1950-х годов менялась цена хранения 1 Тб информации, видно, что она снижалась по степенному закону. Работа с ИИ — это работа с данными, а подходы, основанные на данных, хорошо работают именно там, где эти данные есть или могут быть добыты.

Если говорить о материаловедении и бенчмарках, которые встречаются, то, наверное, подавляющее большинство работ, включая наши, занимаются предсказанием энергии или других свойств структуры в равновесном состоянии. Чуть меньше работ посвящено механическим и магнитным свойствам, потому что это, наверное, второй и третий по сложности варианты квантово-механического расчета, если структура уже известна. Значительно меньше прогнозов посвящено фононным или оптическим свойствам. Расчеты для них могут требовать увеличения размера ячеек и более сложных расчетных схем. Чем сложнее свойство и больше затраты времени и ресурса на его оценку, тем меньше расчетных результатов, а значит, меньше данных для обучения модели.

Для задач, где данные есть и они хорошо обобщаются, ИИ-подходы работают исправно. Например, в графовых нейросетях для предсказания энергии, где свойство напрямую связано со структурой в прямом пространстве. Как только мы переходим к более сложным свойствам, где структура влияет слабее или не является единственным определяющим фактором, сразу возникают ограничения. Так что может, но все упирается в данные.

— К слову, о данных. Одна из ваших работ посвящена созданию набора данных для прогнозирования ионного транспорта. Почему создание качественного датасета — это отдельная научная задача?

— Ионный транспорт — это процесс направленного перемещения ионов в твердом теле или жидкости. Процесс крайне важный для работы над накопителями энергии, твердотельными батареями, топливными элементами, химическими сенсорами, суперконденсаторами, а еще для изучения коррозии. В твердых телах его изучение представляет большой интерес, но осложнено необходимостью учета механизмов переноса.

Во-первых, существует множество методов оценки ионного транспорта, работающих на разных уровнях. Они по-разному учитывают релаксацию структуры и ее отклик на перемещение ионов, если вообще делают это. Поскольку ионный транспорт связан с переносом вещества, реальным перемещением ионов, это тоже сложная задача, а расчет даже одной траектории движения иона внутри атомного каркаса требует специальных методов и больших вычислительных затрат в рамках теории функционала плотности.

Во-вторых, из-за сложности этого свойства не было однозначного ответа, насколько хорошо разные модели справятся с его прогнозированием, даже если есть большая обучающая выборка. Например, на построенном наборе данных мы проверили не только универсальные межатомные потенциалы, но и графовые нейросети в режиме предсказания «структура—свойство», а также простые дескрипторные модели, предложенные коллегами для лучшей интерпретируемости. Результат ожидаем: чем сложнее модель и чем точнее она воспроизводит физику процесса, тем выше качество прогноза. Так, лучше всего справились межатомные потенциалы, а для дескрипторных моделей и графовых нейросетей мы показали лишь качественное соответствие расчетных и предсказанных параметров.

Создание этого набора данных было хорошо встречено коллегами по всему миру, потому что нам, должно быть, удалось закрыть существовавший на тот момент пробел. Теперь у сообщества есть удобный инструмент для проверки новых моделей. Работа продолжается, и думаю, что скоро мы подготовим расширение или даже вторую версию набора LiTraj.

— Можно ли создать универсальный набор для всех материаловедческих задач или каждый раз нужно собирать новый?

— Кажется, что в момент перехода от третьей к четвертой парадигме такие попытки были. Например, база данных Materials Project, созданная в рамках американской инициативы Materials Genome. Но в своих исследованиях мы часто видим, что подобные базы или даже более объемные варианты вроде базы данных AFLOW полезны для предобучения моделей только в ограниченном спектре задач. Из недавних примеров отметил бы плохую переносимость прогнозов моделей, которые предобучались на объемных кристаллах, в область двумерных материалов.

Думаю, что каждый раз, когда речь идет о новом классе материалов или их свойств, особенно сложных, требуется свой набор данных. Универсального набора для всех материаловедческих задач создать нельзя, потому что различные свойства требуют разных подходов к измерению или расчету, разной детализации и разного объема информации.

— Какой минимальный должен быть набор информации об эксперименте или расчете, для того чтобы набор данных был полезным для обучения? Или это тоже зависит от конкретной области исследований?

— Главная проблема с экспериментальными наборами данных заключается в том, что встретить работы, где были бы представлены не только удачные, но и неудачные результаты, можно очень редко. А ведь для обучения ИИ хотелось бы видеть и те, и другие. О цифровых лабораторных журналах мы слышим уже не первое десятилетие, но, на мой взгляд, они пока так и не смогли глобально повлиять на ситуацию. Другая важная особенность экспериментальных данных состоит в их привязке к конкретному оборудованию и условиям проведения экспериментов. Данные из разных уголков мира для одного и того же образца могут отличаться друг от друга из-за того, какие экспериментальные установки были использованы в процессе их получения.

Что касается расчетных синтетических данных, то мы в своей работе стараемся придерживаться подхода, в рамках которого полнота измерима. Например, когда мы работаем с химическим беспорядком, мы фиксируем структуру и модифицируем ее химический состав, по сути, просто «перекрашивая» атомы. Оказывается, можно построить такие наборы, для которых нельзя придумать структуру, которая бы уже не содержалась в коллекции. За такую полноту стоит бороться, особенно если мы создаем бенчмарк.

К большинству бенчмарков, не следующих этому правилу, всегда возникает вопрос: «А что будет, если взять другой набор структур и проверить модель на нем?» Когда же набор полный и к нему нельзя ничего добавить, пусть даже он решает очень узкую задачу, мы точно знаем, как работает ИИ-модель на совокупности всех возможных вариантов реализации структуры. Это ценно. Я не утверждаю, что это единственный способ решения всех вопросов полноты данных, хочу лишь подчеркнуть важный аспект подобного рода проверок моделей.

— Какие ошибки обычно совершают при сравнении эффективности разных моделей для материаловедения?

— В материаловедении есть четкие критерии, позволяющие судить, хороша модель или нет: существует энергетический масштаб, порог точности, не дойдя до которого модель не имеет практической ценности. В некоторых соревнованиях по созданию ИИ-моделей победителями становятся решения, которые так и не достигают этого порога. Формально они выигрывают, набирая лучшие показатели среди конкурентов, но возникает вопрос применимости модели-победителя, поскольку в ряде случаев она не справляется с задачей и никак об этом не информирует пользователя.

Другой пример: недавно довелось выступить рецензентом для одного из журналов по материаловедению, а на рецензию я получил статью, в которой был предложен подход прогнозирования все той же энергии образования, но с использованием «картиночных» и текстовых модальностей для кристаллов. Не буду вдаваться в подробности, просто расскажу про результат. Для очень узкого набора структур из Materials Project «лучшее» решение авторов показывало ошибки прогнозов на уровне сотен миллиэлектронвольт на атом, что на два порядка больше ошибок существующих графовых нейросетей.

Это главное отличие использования машинного обучения в химии, физике и материаловедении. Модель предсказания энергии становится полезной тогда, когда ее ошибка достигает порога в несколько миллиэлектронвольт на атом. До этого все ее предсказания одинаково плохи, по крайней мере в рамках наших задач.

— Вы изучали, как учет симметрии влияет на качество предсказаний графовых нейросетей. Зачем ИИ знать про симметрию кристалла? Не помешает ли это, если мы захотим найти материалы с дефектами, где симметрия нарушена?

— Симметрия в кристаллографии — это не бинарное свойство, она снижается постепенно, и существует множество ее видов: инверсия, отражения, повороты и так далее, которые можно исключать по очереди. При внесении дефектов структура может становиться менее симметричной, чем исходная. Например, мы можем сделать незанятыми две позиции в структуре, но при этом сохранить зеркальную плоскость или винтовую ось второго порядка.

Влияние симметрии на обучение моделей имеет интерпретируемый и понятный механизм. Кристаллическая структура представляется в виде графа, и чем выше ее симметрия, тем больше в этом графе повторяющихся подграфов. Более высокая симметрия фактически снижает структурное многообразие в каждой структуре из обучающей выборки.

Мы специально организовали расчетный эксперимент, в котором единственным изменяемым параметром была доля высокосимметричных структур в обучающих данных. Благодаря этому было строго показано, что обучение на них приводит к более низкой обобщающей способности графовой нейросети и эта зависимость плавная. Чем больше таких структур, тем хуже обобщение. Причина в том, что модель видит меньше структурного разнообразия.

Однако у высокосимметричных структур есть важное преимущество. Они позволяют хорошо покрыть диапазон целевого свойства, например, той же энергии, при малом количестве примеров. Для модели критически важно учить связи «состав — свойство» и «структура — свойство». Если необходимо зафиксировать состав, но при этом показывать ИИ только низкосимметричные структуры с близкими значениями свойства, обобщающая способность тоже пострадает. Высокая симметрия становится компромиссом. Она снижает структурное разнообразие в каждой конкретной структуре в обучающем наборе, но помогает эффективно решить вопрос с вариацией целевого свойства в нем.

— Есть ли примеры, когда материалы, найденные с помощью ИИ, были успешно синтезированы или даже внедрены в производство?

— Синтезированные есть. В том числе и по нашим расчетам с коллегами из Томска и Сколтеха был получен новый материал. В области есть много примеров экспериментального подтверждения экзотических свойств материалов при экстремальных условиях.

А вот про внедренные на уровне индустрии важно понимать следующее. Фундаментальные научные исследования в области функциональных материалов чрезвычайно далеки от промышленного внедрения даже в смысле масштабов. Мы моделируем вещество на уровне десятков и сотен атомов. Если мы можем получить новый материал для экспериментальной валидации в граммовых количествах, а для реального применения нужны килограммы, то нужно четко понимать, а вероятно, и разбираться, как реализовать технологию подобного производства. Внедрение предполагает большой цикл дополнительных исследований и испытаний. И первый, наиболее значимый этап — возможность масштабируемости.

Если косвенно судить по количеству исследовательских департаментов в крупных компаниях, которые занимаются материаловедческими разработками, в том числе с применением ИИ, то думаю, что в нишевых задачах под нужды бизнеса такие кейсы существуют. Надеюсь, что причина, по которой они у всех нас не на слуху, кроется исключительно в коммерческой тайне.

— Можно ли ожидать в ближайшие 5–10 лет какого-то революционного материала, который сравним по «вау-эффекту» с открытием графена?

— Кажется, что успех графена в большей степени заключается не в создании совершенно новых продуктов, а в значительном улучшении характеристик существующих. И диапазон тут широкий — от бытовой электроники и сенсоров до строительных материалов. Конечно, это впечатляет.

Если задуматься о разных направлениях, с которыми нам довелось поработать в смысле решения материаловедческих задач, пожалуй, в электрохимии и катализе ощущается наибольшая концентрация усилий. Вероятно, что создание экологичного, безопасного и энергоемкого источника тока может создать «вау-эффект» в домене доступного и долговечного транспорта. Ну а значение доступных, надежных и долговечных катализаторов вообще невозможно недооценивать. Однако по-настоящему важно другое. Прорывные открытия редко создаются по плану. В основном все, что действительно меняет картину мира, получается в результате работы, как у нас в институте шутят — «по-фану, а не по дорожной карте». Говорить о том, что мы или кто-то другой планомерно движемся к открытию революционного материала в ближайшие годы, по меньшей мере странно.

Что точно будет происходить, так это накопление все более сложной и дорогой в смысле вычислений информации, новых результатов моделирования. Машинное обучение и ИИ уже отлично зарекомендовали себя в роли помощников, которые ускоряют исследования. При их использовании данных будет становиться больше. Человечество уже столкнулось с этим в доменах текстов, изображений и видео. Другой вопрос, что эти данные будут уже не просто синтетическими, полученными в расчетах из первых принципов или с помощью физических моделей, а «дважды синтетическими», то есть предсказанными с помощью моделей, которые обучены на синтетике. Насколько они будут качественными? Увидим.

— «Дважды синтетические» данные. Звучит так, будто бы мы идем к лаборатории будущего, в которой ИИ сам все предсказывает, тестирует и синтезирует.

— Сложность экспериментальной части вряд ли позволит создавать автоматизированные лаборатории для любого класса функциональных материалов, особенно в ближайшее время. Однако они действительно могут помочь избежать ловушки, в которой нам придется оперировать исключительно сгенерированными данными. Если на каждом этапе построения моделей их инференс (процесс использования обученной модели искусственного интеллекта.— “Ъ-Наука”) будет валидироваться экспериментально, это очень неплохо! Это будет качественное изменение самого подхода к поиску новых знаний, особенно если эксперимент хотя бы какую-то часть прогнозов будет подтверждать.

По большей части речь идет не столько о создании полностью автоматической лаборатории, сколько о построении цикла «прогнозирование—валидация—прогнозирование», в рамках которого можно проверять гипотезы. Критерий опровержимости для любых теорий критически важен. Если делать прогнозы, но не заниматься их валидацией или опровержением, в них не будет ни пользы, ни смысла.

Мария Грибова