Самодумающая машина
Как российские инженеры построили первый программно-аппаратный комплекс для искусственного интеллекта
От гипотезы до работающего продукта — о трудностях связки отечественного оборудования и программного обеспечения, адаптации под языковые модели и важных уроках для тех, кто только начинает, «Ъ-Науке» рассказал Антон Юдин, начальник отдела разработки аппаратного обеспечения и развития технологий ИИ Скала^р .
Начальник отдела разработки аппаратного обеспечения Скала^р Антон Юдин
Фото: Пресс-служба Скала^р
Начальник отдела разработки аппаратного обеспечения Скала^р Антон Юдин
Фото: Пресс-служба Скала^р
— Когда появилась идея создания программно-аппаратного комплекса для искусственного интеллекта?
— Около трех лет назад у команды возникла гипотеза: можем ли мы создать инфраструктурную единицу, адаптированную специально под задачи искусственного интеллекта для крупного бизнеса и государства. На тот момент мы умели накапливать и обрабатывать данные, и следующим логичным шагом стало их использование с помощью ИИ.
Повлиял и мой личный опыт: ранее я работал с NVIDIA и видел, как ведущий вендор выстраивает экосистему — от создания инфраструктуры до поддержки стартапов. В России таких решений пока не существовало. Поэтому, ориентируясь на запросы заказчиков и нормативные требования, мы начали разрабатывать собственную архитектуру российского апплаенса, а активная реализация стартовала уже в 2025 году.
— С какими сложностями вы столкнулись при разработке?
— На начальном этапе мы долго проверяли реальную потребность рынка в подобном продукте, общались с заказчиками и партнерами, выясняли их задачи и инфраструктурные ограничения, чтобы не тратить ресурсы на разработку ненужного решения. Благодаря этому удалось определить наиболее востребованные сценарии, такие как обучение на защищенных данных в изолированных кластерах.
Сложности были и технические, и организационные. Одной из основных задач стала необходимость RnD и создания технологического альянса с российскими производителями для создания специализированных аппаратных и программных комплексов под задачи ИИ. Да, многие действительно чувствовали потребность в таких продуктах, но у вендоров не было уверенности, что рынок примет их решения. Мы стали для них одним из этапов CustDev с технологической интервенцией, основанной на опыте на стыке исполнительного софта, микропрограммного обеспечения и высоконагруженных аппаратных систем.
Одной из наиболее трудоемких стала задача по объединению отечественного программного обеспечения и оборудования — приходилось не просто настраивать компоненты, но и вносить изменения в их внутреннюю логику. Например, для платформы MLOps потребовалась ручная адаптация конфигураций RedOS и Deckhouse. Следом появились инженерные задачи: написание собственных драйверов, оптимизация сетей, отладка взаимодействия с системами хранения данных. Другими словами, требовалось вручную «учить» разные компоненты правильно взаимодействовать друг с другом, чтобы система работала стабильно и без перебоев.
Еще одним вызовом стала адаптация азиатских графических карт для работы с моделью LLaMA. Процесс включал и глубокий технический анализ, и многочисленные оптимизации, и длительную отладку. В результате модель удалось успешно запустить, и кейс можно назвать значимым для всего рынка.
Ну и наконец, немало усилий команда инвестировала в адаптацию программно-аппаратного комплекса под требования Минцифры и Минпромторга, его сертификацию как единого изделия.
— Как вы выстраивали архитектуру с учетом разных моделей: языковых, визуальных, мультимодальных?
— Основной акцент мы сделали на большие языковые модели и генеративные модели, поскольку именно они сейчас наиболее востребованы на российском рынке, по нашей оценке. Архитектуру разрабатывали так, чтобы она была максимально эффективна для задач инференса и обучения больших языковых моделей (LLM и vLLM).
Использовали проверенные подходы HPC: RDMA, NVLink, NUMA-распределение, HW-offload, DPU и т. д., тщательно тестировали и валидировали процессоры и оффлоад-карты под разные типы нагрузок. В результате получилась модульная структура, где все элементы — от хранилищ до графических ускорителей — работают как единый вычислительный комплекс. Это важно, поскольку и бизнес, и государство в итоге получают возможность легко масштабировать систему и адаптировать ее под конкретные задачи без необходимости полностью перестраивать инфраструктуру.
Для масштабируемости выбрали высокоскоростной 400G Ethernet, позволяющий достигать минимальных задержек, приближенных к показателям InfiniBand. Управление реализовали через отечественный Kubernetes Deckhouse.
Над разработкой ПАКа стабильно работают свыше 20 человек, по ходу нам пришлось доукомплектовывать команду дата-сайентистами и инженерами, разбирающимися в работе графических ускорителей. Это было необходимо, чтобы обеспечить настройку исполнения моделей на нашей платформе и выстроить грамотную техническую поддержку.
Машина для ИИ может поставляться как модульный набор, так и как готовое решение в зависимости от задач заказчика. Для обучения и инференса предусмотрены разные конфигурации. Все компоненты типизированы, масштабируются и могут интегрироваться с другими решениями, формируя лейкхаусы.
Мы использовали и используем только сертифицированные компоненты, включенные в реестры Минцифры и Минпромторга. Исключением являются графические карты, которые сейчас не входят в расчет локализации. Но мы работаем над направлением с азиатскими картами. Весь программный стек сертифицирован: операционная система RedOS, платформа Kubernetes Deckhouse от компании «Флант» и собственные решения для мониторинга.
— Что бы вы посоветовали тем, кто только начинает строить инфраструктуру под ИИ?
— Очень важно сразу уделять внимание деталям, так как инфраструктура — это не просто фоновое решение, а фундамент, от которого зависит вся последующая работа с моделями и данными. Сначала стоит четко определить основную задачу: инференс, обучение моделей или комплексные сценарии, требующие нескольких подходов одновременно. От этого будет зависеть не только выбор технологий, но и принципы масштабирования системы.
Необходимо внимательно изучать лучшие мировые практики в области HPC и опыт крупных компаний-гиперскейлеров, которые уже прошли путь создания крупных и сложных систем.
Полезно учитывать совместимость выбранных фреймворков, драйверов и решений для хранения данных. Стоит уделить внимание удобству и простоте дальнейшего обслуживания: закладывать эффективные механизмы мониторинга, соблюдение SLA и поддержку на этапе проектирования, а не после запуска.
Также стоит помнить, что инфраструктура постоянно меняется — появляются новые решения и требования, а значит, архитектура должна быть модульной, чтобы можно было легко заменять компоненты и расширять возможности системы, не прерывая работу уже запущенных процессов.
В конечном счете грамотно спроектированная инфраструктура сэкономит ресурсы, позволит быстрее запускать новые проекты и сделает всю работу с ИИ более стабильной и производительной.