Самодумающая машина

Как российские инженеры построили первый программно-аппаратный комплекс для искусственного интеллекта

От гипотезы до работающего продукта — о трудностях связки отечественного оборудования и программного обеспечения, адаптации под языковые модели и важных уроках для тех, кто только начинает, «Ъ-Науке» рассказал Антон Юдин, начальник отдела разработки аппаратного обеспечения и развития технологий ИИ Скала^р .

Начальник отдела разработки аппаратного обеспечения Скала^р Антон Юдин

Начальник отдела разработки аппаратного обеспечения Скала^р Антон Юдин

Фото: Пресс-служба Скала^р

Начальник отдела разработки аппаратного обеспечения Скала^р Антон Юдин

Фото: Пресс-служба Скала^р

— Когда появилась идея создания программно-аппаратного комплекса для искусственного интеллекта?

— Около трех лет назад у команды возникла гипотеза: можем ли мы создать инфраструктурную единицу, адаптированную специально под задачи искусственного интеллекта для крупного бизнеса и государства. На тот момент мы умели накапливать и обрабатывать данные, и следующим логичным шагом стало их использование с помощью ИИ.

Повлиял и мой личный опыт: ранее я работал с NVIDIA и видел, как ведущий вендор выстраивает экосистему — от создания инфраструктуры до поддержки стартапов. В России таких решений пока не существовало. Поэтому, ориентируясь на запросы заказчиков и нормативные требования, мы начали разрабатывать собственную архитектуру российского апплаенса, а активная реализация стартовала уже в 2025 году.

— С какими сложностями вы столкнулись при разработке?

— На начальном этапе мы долго проверяли реальную потребность рынка в подобном продукте, общались с заказчиками и партнерами, выясняли их задачи и инфраструктурные ограничения, чтобы не тратить ресурсы на разработку ненужного решения. Благодаря этому удалось определить наиболее востребованные сценарии, такие как обучение на защищенных данных в изолированных кластерах.

Сложности были и технические, и организационные. Одной из основных задач стала необходимость RnD и создания технологического альянса с российскими производителями для создания специализированных аппаратных и программных комплексов под задачи ИИ. Да, многие действительно чувствовали потребность в таких продуктах, но у вендоров не было уверенности, что рынок примет их решения. Мы стали для них одним из этапов CustDev с технологической интервенцией, основанной на опыте на стыке исполнительного софта, микропрограммного обеспечения и высоконагруженных аппаратных систем.

Одной из наиболее трудоемких стала задача по объединению отечественного программного обеспечения и оборудования — приходилось не просто настраивать компоненты, но и вносить изменения в их внутреннюю логику. Например, для платформы MLOps потребовалась ручная адаптация конфигураций RedOS и Deckhouse. Следом появились инженерные задачи: написание собственных драйверов, оптимизация сетей, отладка взаимодействия с системами хранения данных. Другими словами, требовалось вручную «учить» разные компоненты правильно взаимодействовать друг с другом, чтобы система работала стабильно и без перебоев.

Еще одним вызовом стала адаптация азиатских графических карт для работы с моделью LLaMA. Процесс включал и глубокий технический анализ, и многочисленные оптимизации, и длительную отладку. В результате модель удалось успешно запустить, и кейс можно назвать значимым для всего рынка.

Ну и наконец, немало усилий команда инвестировала в адаптацию программно-аппаратного комплекса под требования Минцифры и Минпромторга, его сертификацию как единого изделия.

— Как вы выстраивали архитектуру с учетом разных моделей: языковых, визуальных, мультимодальных?

— Основной акцент мы сделали на большие языковые модели и генеративные модели, поскольку именно они сейчас наиболее востребованы на российском рынке, по нашей оценке. Архитектуру разрабатывали так, чтобы она была максимально эффективна для задач инференса и обучения больших языковых моделей (LLM и vLLM).

Использовали проверенные подходы HPC: RDMA, NVLink, NUMA-распределение, HW-offload, DPU и т. д., тщательно тестировали и валидировали процессоры и оффлоад-карты под разные типы нагрузок. В результате получилась модульная структура, где все элементы — от хранилищ до графических ускорителей — работают как единый вычислительный комплекс. Это важно, поскольку и бизнес, и государство в итоге получают возможность легко масштабировать систему и адаптировать ее под конкретные задачи без необходимости полностью перестраивать инфраструктуру.

Для масштабируемости выбрали высокоскоростной 400G Ethernet, позволяющий достигать минимальных задержек, приближенных к показателям InfiniBand. Управление реализовали через отечественный Kubernetes Deckhouse.

Над разработкой ПАКа стабильно работают свыше 20 человек, по ходу нам пришлось доукомплектовывать команду дата-сайентистами и инженерами, разбирающимися в работе графических ускорителей. Это было необходимо, чтобы обеспечить настройку исполнения моделей на нашей платформе и выстроить грамотную техническую поддержку.

Машина для ИИ может поставляться как модульный набор, так и как готовое решение в зависимости от задач заказчика. Для обучения и инференса предусмотрены разные конфигурации. Все компоненты типизированы, масштабируются и могут интегрироваться с другими решениями, формируя лейкхаусы.

Мы использовали и используем только сертифицированные компоненты, включенные в реестры Минцифры и Минпромторга. Исключением являются графические карты, которые сейчас не входят в расчет локализации. Но мы работаем над направлением с азиатскими картами. Весь программный стек сертифицирован: операционная система RedOS, платформа Kubernetes Deckhouse от компании «Флант» и собственные решения для мониторинга.

— Что бы вы посоветовали тем, кто только начинает строить инфраструктуру под ИИ?

— Очень важно сразу уделять внимание деталям, так как инфраструктура — это не просто фоновое решение, а фундамент, от которого зависит вся последующая работа с моделями и данными. Сначала стоит четко определить основную задачу: инференс, обучение моделей или комплексные сценарии, требующие нескольких подходов одновременно. От этого будет зависеть не только выбор технологий, но и принципы масштабирования системы.

Необходимо внимательно изучать лучшие мировые практики в области HPC и опыт крупных компаний-гиперскейлеров, которые уже прошли путь создания крупных и сложных систем.

Полезно учитывать совместимость выбранных фреймворков, драйверов и решений для хранения данных. Стоит уделить внимание удобству и простоте дальнейшего обслуживания: закладывать эффективные механизмы мониторинга, соблюдение SLA и поддержку на этапе проектирования, а не после запуска.

Также стоит помнить, что инфраструктура постоянно меняется — появляются новые решения и требования, а значит, архитектура должна быть модульной, чтобы можно было легко заменять компоненты и расширять возможности системы, не прерывая работу уже запущенных процессов.

В конечном счете грамотно спроектированная инфраструктура сэкономит ресурсы, позволит быстрее запускать новые проекты и сделает всю работу с ИИ более стабильной и производительной.

Мария Мартынова