фотография Иван Ерофеев
маргиналии Александр Кольцов
Школа анализа данных "Яндекса" стала участником коллаборации большого эксперимента LHCb ЦЕРН (CERN). Школа будет помогать ученым в обработке данных и проводить исследования на стыке физики и компьютерных наук в рамках эксперимента LHCb — одного из главных экспериментов на Большом адронном коллайдере. Это первый случай, когда членом коллаборации становится частный университет, созданный по инициативе коммерческой компании, при этом не специализирующийся на физике. До этого в коллаборацию входили исключительно университеты, где ведутся исследования в области физики: МГУ, Массачусетский технологический институт, Оксфордский университет и другие.
Сегодня много говорят о применении технологий big data в медицине, экономике и других областях. История с физиками — интереснейший пример того, как может работать "магия" алгоритмов.
Образование ШАД "Яндекса"
Представьте себе, что ребенку подарили интересную игрушку. Какое-то время он увлеченно играет, а потом ему становится интересно, что внутри, как она устроена. У всех свои игрушки, и чем они интереснее устроены, тем сложнее их разобрать. В мире физики игрушки, пожалуй, одни из самых сложных — связанные с нашей физической реальностью. В физике частиц, которой занимаются на Большом адронном коллайдере, объектом исследования являются элементарные частицы. А точнее, законы и модели, которые описывают их поведение: распады, взаимодействия и т.д.
Одним из способов изучения частиц является столкновение разогнанных до огромных скоростей частиц друг с другом. В результате таких столкновений высвобождается чрезвычайно большое количество энергии E2 = (mc2)2 + (pc)2, которая может превратиться в другие виды частиц. На Большом адронном коллайдере протоны разгоняются почти до скорости света по двум противоположным круговым траекториям и соударяются в четырех точках кольца коллайдера — четырех детекторах больших экспериментов. Каждый эксперимент хорош в наблюдении определенного вида распадов частиц.
Что такое LHCb
Эксперимент LHCb, к работе над которым подключатся студенты и исследователи ШАД, построен так, чтобы хорошо "видеть" распады частиц, появляющихся после столкновения протонов и летящих под небольшим углом вдоль соударяющихся пучков. Эта особенность позволяет, например, хорошо изучить законы взаимодействия B-мезонов. Одна из загадок, которую можно решить, наблюдая за частицами, — нарушение симметрии в законах для материи и антиматерии. В частности, интересный вопрос заключается в том, почему окружающая нас видимая вселенная почти целиком состоит из материи и в окружающем нас космическом пространстве нет заметных следов антиматерии. Дело в том, что во время Большого взрыва было одинаковое количество материи и антиматерии. Большая их часть проаннигилировала, и в результате остались фотоны и только совсем маленький избыток материи, из которой созданы звезды, планеты и мы с вами. Этого избытка не было бы, если бы не было различия в свойствах материи и антиматерии. Интрига в том, что известные законы физики для материи и антиматерии довольно похожи, и внятного ответа на вопрос, почему материи осталось так много, они не дают. В поисках ответов на такие загадки физики не смотрят за каждым отдельным столкновением частиц, они ищут закономерности, проявляющиеся при наблюдении большого количества столкновений, — статистические закономерности, распределения физически-значимых величин.
Коллайдер — это лишь начальное звено большого конвейера по обработке данных, за ним находится онлайн-ферма, которая отсеивает данные об интересных столкновениях от явного шума. Интересные данные, которые составляют сотые доли процента от всех наблюдаемых столкновений, сохраняются в дата-центрах грида (WLCG — Worldwide LHC Computing Grid) и проходят последующую обработку; только после всех предварительных этапов данные становятся доступны физикам коллаборации для предметного исследования. Каждое зарегистрированное соударение протонов в коллайдере называется событием, их могут исследовать участники коллаборации.
Один из классов задач, которые решаются на LHCb, — поиск редких распадов. Сложность этой задачи обусловлена необходимостью учета большого количества неопределенностей и одновременно требованием высокой точности получаемого ответа.
Поиск определенного вида событий похож на поиск иголки в стоге сена. Задача усложняется, т.к. каждое событие описывается десятками разных признаков, для которых очень сложно выделить объем пространства с наилучшим соотношением сигнал/шум. Для решения таких задач в других областях науки хорошо зарекомендовали себя методы машинного обучения, такие, например, как классификация, которые могут это сделать гораздо лучше и точнее, чем человек. Такие подходы могут здорово сократить время накопления данных, а каждый год работы коллайдера — это примерно 1 миллиард евро для налогоплательщиков.
ШАДовцы помогут физикам в решении инженерных задач, для которых не нужно модельных данных, и задач не про физику: хранение данных, обнаружение и предсказание аномалий в работе детектора.
Доступ к данным эксперимента LHCb имеют исключительно участники коллаборации. Коллаборация — это как живой организм, состоящий из различных органов. Каждый орган поддерживает функциональность всего организма: служба IT, отвечающая за хранение и выполнение пользовательских запросов, группа поддержки детектора, группа онлайн-обработки, группа офлайн-обработки и другие. В них протекают довольно сложные процессы, замешанные на личных амбициях, национальных особенностях и групповой динамике. Описать этот организм можно лишь схематично.
Формально коллаборация состоит из 60-70 групп по 5-15 человек из различных институтов всего мира. Каждая группа одновременно может вести работу по нескольким вспомогательным задачам и получает возможность проводить физические исследования с использованием данных эксперимента.
ШАД взяла на себя несколько больших задач: поддержку системы поиска событий LHCb по набору критериев, предоставление доступа к технологиям построения классификаторов, разработку системы проведения воспроизводимых экспериментов, оптимизацию стоимости хранения данных за счет предсказания популярности отдельных файлов, мониторинг работы LHCb-детектора и системы онлайн-обработки событий LHCb-детектора.
Наша группа, так же, как и группы физиков, получает возможность проводить исследования на данных эксперимента. В открытый доступ для всех данные попадают через несколько лет, для участников коллаборации — сразу же. С вступлением в коллаборацию мы можем готовить научные статьи вместе с физиками из ЦЕРН, другими университетами или самостоятельно.
В первое время, когда мы только начали общаться, мы не очень хорошо понимали, как устроена жизнь и где находятся границы территорий, через которые не принято переступать. Это становилось предметом непонимания и даже ревности. Каждая институтская группа формирует для себя план на год по физическим исследованиям: описываются темы и определяются ответственные за развитие этих тем. Как правило, физические интересы различных институтов пересекаются, и это повод для создания малой исследовательской группы внутри коллаборации по работе над одной задачей. Например, анализ распада Bs→2μ или τ→3μ. Внутри малой исследовательской группы физики распределяют обязанности между собой: подготовка данных, предвыборка данных, генерация данных на симуляторе, обучение классификаторов, расчет систематических и статистических неточностей и т.д. Работа над таким анализом может пройти относительно быстро — за полгода, после чего формируется внутренний документ, содержащий подробное описание проделанных шагов анализа, и если он утверждается внутренними рецензентами (что может занять от трех до шести месяцев), то по мотивам этого документа пишется статья в научный журнал (например, Physical Review Letters).
Сейчас мы понимаем эти принципы лучше и нашли свою нишу для исследовательских работ. Например, это такие задачи, как поиск распадов по общему шаблону — малоизученная область, в которой методы машинного обучения без учителя (unsupervised learning) могут показать себя с наилучшей стороны.
Наше отличие от физиков заключается еще и в том, что нам может быть интересно решение вспомогательных инженерных задач с научной точки зрения: мы можем писать статьи по этим темам, защищать магистерские и кандидатские диссертации, в то время как для физиков научный интерес представляют исключительно физические задачи.
Меня часто спрашивают: как могут изменить мир наблюдения за сталкивающимися частицами? Напомню, что именно благодаря физикам в нашей жизни появилась всемирная паутина www, жидкокристаллические дисплеи, лечение онкологии пучком протонов и многое другое.
Для России это относительно новая тема, но это совсем не повод её игнорировать. Мы видим сейчас очень бурное развитие науки о данных, позволяющее расширять технологии машинного обучения для решения огромного спектра задач: от планирования маршрутов и выбора кинофильма до распознавания сложных видеорядов и предотвращения катастроф. Эти подходы отличаются универсальностью – их можно оттачивать на данных из одной области и применять на совершенно ином поприще. Именно эти перспективы интересуют нас в сотрудничестве с ЦЕРНом больше всего.
ЦЕРН (CERN) — это крупнейший в мире научно-исследовательский центр в области исследования фундаментальных свойств материи (ФСМ). Российская наука имеет большой авторитет и традиции в области ФСМ, что позволяет российским ученым быть участниками в коллаборациях таких масштабных экспериментов, как ATLAS, CMS, ALICE и LHCb, реализуемых на Большом адроном коллайдере, созданном в CERN.
Координацию деятельности, связанной с научно-техническим сотрудничеством российских ученых и специалистов в CERN, осуществляет Минобрнауки России. До настоящего времени в коллаборацию входили исключительно научные организации, в которых проводятся исследования в области ФСМ: МГУ, ОИЯИ и другие.
Сейчас создан прецедент, когда членом коллаборации становится частный университет, созданный по инициативе коммерческой компании, при этом не специализирующейся на физике. Так, школа анализа данных "Яндекса" стала участником коллаборации эксперимента LHCb. Школа будет помогать ученым в обработке данных и проводить исследования на стыке физики и компьютерных наук.