Скорость критически важна для ИИ: чем быстрее компания может обучать и улучшать свои модели, тем выше ценность всех ее продуктов. Отсюда растущий спрос на GPU и масштабную инфраструктуру ЦОД, заключили аналитики Альфа-Банка, обобщив исследования и данные по рынку коммерческих дата-центров.
На российском рынке рост заметен сразу в двух направлениях: через спрос на оборудование (для собственной инфраструктуры), а также аренду облачных мощностей (когда приобретаются определенные услуги или сервисы на сторонней инфраструктуре, по модели IaaS). За 2024 год, по данным официальных закупок (доступны только по госсектору), спрос на серверы для работы с ИИ вырос в два раза, а объем тендеров на программно-аппаратные комплексы с ИИ-ускорителями увеличился на 150%. Возрастает в стране спрос и на облачную инфраструктуру для ИИ. iKS-Consulting, прогнозируя результаты 2024 года, называет значимым драйвером роста спрос на инфраструктуру для искусственного интеллекта. Аналитики отмечают, что растет аренда серверов с GPU, но при этом конкретные цифры не называются.
О том, что обеспечение инфраструктуры для развития и применения ИИ — один из главных технологических трендов 2025 года, выделяемых глобальными аналитиками, писал в мартовском обзоре ICT.Moscow.
ICT.Moscow продолжает серию публикаций о разработках российских компаний в сфере ИИ. Новая подборка включает в себя 33 решения. Часть из них можно использовать для аренды вычислительных мощностей — это суперкомпьютеры, сервисы GPUaaS и Inference-as-a-Service. Другие позволят выстроить свою собственную ИИ-инфраструктуру: это решения для построения суперкомпьютерных кластеров, GPU-серверы и GPGPU-платформы, программно-аппаратные комплексы, ускорители. Решения и подкатегории в подборке выстроены в зависимости от объема вычислительных мощностей и имеющегося функционала в порядке убывания.
Решения для аренды вычислительных мощностей
Суперкомпьютеры
В России такие вычислительные комплексы есть у ИИ-экосистем («Яндекс», «Сбер») и научно-образовательных организаций (МГУ им. М.В. Ломоносова, ННГУ им. Н.И. Лобачевского, «Сколтех»). Некоторые из этих суперкомпьютеров входят в международный рейтинг TOP500. Доступ к мощностям можно получить через облачные платформы разработчиков, либо через специализированные центры.
Ниже они представлены по их производительности, измеряемой в петафлопсах.
- Доступ к вычислительным мощностям трех суперкомпьютеров «Яндекса» — «Червоненкиса», «Галушкина» и «Ляпунова» — обеспечивается через платформу YTsaurus.
- Суперкомпьютеры «Сбера» Christofari и Christofari Neo доступны бизнесу посредством платформы ML Space.
- Сторонние разработчики могут получить доступ к суперкомпьютерам МГУ им. М.В. Ломоносова — «Ломоносов-2» и «МГУ-270» — пройдя регистрацию в Центре коллективного пользования сверхвысокопроизводительными вычислительными ресурсами МГУ им. М.В. Ломоносова.
- Для использования мощностей суперкомпьютера «Лобачевский» необходимо заполнить заявку на сайте Приволжского научно-образовательного центра суперкомпьютерных технологий ННГУ им. Н.И. Лобачевского.
- Участники проекта «Сколково» получают скидку в 20% на использование мощностей «Жореса» — суперкомпьютера «Сколтеха».
GPUaaS (GPU-as-a-Service)
Сервисы, позволяющие арендовать мощности GPU по модели IaaS для обучения нейросетей, вычислений в области ИИ, а также ускорения рабочих нагрузок и инференса (работы моделей).
- Виртуальная инфраструктура с GPU (MWS) предлагает в аренду виртуальные серверы с двумя типами GPU на 19,5 и 15,7 терафлопс для высоконагруженных вычислений, обучения и инференса нейросетей.
- В HPC Park Cloud Service (HPC Park) можно раздробить мощности GPU на семь частей и использовать их для параллельных вычислений.
- Созданный одноименным разработчиком сервис «Т1 Облако» дает возможность развернуть от 1 до 8 видеокарт в одной виртуальной машине и соединить их между собой с помощью NVLink для ускорения вычислений.
- Пользователи Timeweb Cloud GPU (Timeweb) могут предзаказать требуемые серверы, в том числе и NVIDIA Tesla H200.
- В каждом сервере с GPU сервиса mClouds («Мастер-Интеграция») доступно увеличение количества ядер процессоров и оперативной памяти, а также изменение конфигурации видеопамяти.
- Разработанное К2 Cloud решение GPU as a Service предлагает пользователю самому настраивать, отключать и включать виртуальные машины.
- Виртуализация в immers.cloud («Диджитэл Тек Энд Лаб») осуществляется на основе комплекса OpenStack c оригинальным API. Пользователь может установить на арендуемые мощности свое собственное программное обеспечение.
- В сервис NGcloud (Nubes) встроены механизмы защиты от DDoS-атак, а также сканирования IP-адресов.
- Конфигурация графических процессоров в Cloud GPU (VK) динамически меняется в зависимости от нагрузки.
- Аренду серверов с GPU с возможностью разграничения доступа предлагает и компания Selectel, однако у этого сервиса нет отдельного названия.
Inference-as-a-Service
Эти решения позволяют осуществлять инференс модели ИИ на выделенных облачных мощностях.
- Посредством Evolution ML Inference (Cloud.ru) пользователь может запускать модели прямо из платформы Hugging Face, используя только требуемое количество видеопамяти графического ускорителя.
- С помощью Inference-платформы (Selectel) можно регулярно обновлять модели и получать готовые API-интерфейсы.
Решения для построения вычислительной инфраструктуры
Решения для построения суперкомпьютеров
Коробочное решение для создания вычислительного кластера суперкомпьютера.
- Разработанный группой компаний РСК набор инфраструктурных компонентов (серверов, систем хранения данных, серверных стоек, систем охлаждения) и специализированного программного обеспечения позволит суперкомпьютеру достигнуть производительности в 1,9 петафлопса на один вычислительный шкаф с GPU-ускорителями. За счет жидкостного охлаждения достигается энергоэффективность и низкий уровень шума суперкомпьютера.
GPU-серверы и GPGPU-платформы
Серверы с GPU и платформы, использующие GPGPU (General Purpose GPU), которые позволяют применять графические процессоры для вычислений, выполняемых центральными процессорами (CPU). С помощью таких решений становится возможным быстрее обучать модели. Кроме того, они лучше выдерживают нагрузку при работе на них ИИ-приложений.
- «Спутник ИИ» (Fplus) поддерживает до 40 физических ядер на каждый из двух центральных и восьми графических процессоров и пригодится для параллельных вычислений и задач, на которые требуются значительные вычислительные мощности.
- В YADRO G4208P G3 (Yadro) можно разместить до 8 графических процессоров двойной ширины. В сервере возможен прямой обмен данными между ускорителями.
- ITPOD-ASR201-S08R(AI) (ITPOD) предназначен для решения задач умеренного масштаба. Сервер совместим с ускорителями NVIDIA, Sophgo и Moore Threads.
- Благодаря своему форм-фактору DEVBOX AI (Forsite) может поддерживать до 6 профессиональных или 4 игровых GPU и работать с моделями размером более чем в 100 млрд параметров.
- Delta Sprut (Delta Computers) предоставляет возможность попарно объединить GPU для большей производительности. На платформе устанавливается до 10 графических процессоров для обучения моделей ИИ, или до 20 GPU для их инференса.
Программно-аппаратные комплексы (ПАК)
Оборудование со встроенным программным обеспечением для обучения и развертывания моделей.
- С помощью Скала^р МБД.ИИ (Rubytech) можно обучить модель размером до 188 млрд параметров. А чтобы та не галлюцинировала, в периметре ПАК используются RAG-платформы.
- Максимальная производительность GraLinQ AI («Гравитон», «ХайТэк») на одном устройстве составляет 384 трлн операций в секунду. Комплекс оснащен рядом механизмов защиты, обеспечивающих его стабильную работу.
- В ПАК-AI («К2 НейроТех») доступ к вычислительным мощностям возможен как через Kubernetes-контейнеры, так и посредством виртуальных машин с GPU.
- Пиковая производительность ПАК-ML («К2 НейроТех») составляет 536 терафлопс на один вычислительный сервер.
- ПАК «Лира» («Аквариус», «ХайТэк») оснащен ускорителем на базе тензорных процессоров и предназначен для предприятий с критической информационной инфраструктурой.
ИИ-ускорители
Процессоры, дающие возможность ускорить выполняемые моделями ИИ вычисления
- Производительность LinQ HPS («ХайТэк») позволяет поддерживать одновременный запуск более 100 нейросетей. У ускорителя сверхнизкая задержка при обработке данных — 2,3 мс.
Ожидаемые запуски
- В компании «Мотив НТ» заявляют, что к концу 2025 года будет готово новое поколение нейроморфных процессоров AltAI-3. По их словам, чип будет решать в том числе и задачи искусственного интеллекта.
- «Билайн» вместе с российским производителем серверного оборудования ведет работу по созданию сервиса инференса моделей ИИ.
- В рамках соглашения о сотрудничестве компании Yadro, Data Sapience и «Группа Астра» предполагают выпустить ПАК «Тессеракт», предназначенный для разработки и внедрения доверенных моделей ИИ. Первая предоставит аппаратное обеспечение, вторая внедрит платформу машинного обучения и искусственного интеллекта Kolmogorov AI, а третья будет заниматься стратегией развития продукта и его интеграциями.
- ПАК для работы с ИИ планируют создать и три других российских разработчика — «ХайТэк», «Базальт СПО» и «Норси-Транс». Первая компания предоставит ускорители LinQ на базе российских тензорных процессоров, вторая — операционную систему «Альт», третья — оборудование для работы с процессорами Loongson.
- Холдинг «Росэлектроника» (входит в «Ростех») построит суперкомпьютер для Объединенного института высоких температур (ОИВТ) РАН. В его основе будет лежать сеть интерконнекта «Ангара».
- По поручению президента в России будет создан национальный суперкомпьютерный центр. Российские исследователи получат доступ к его вычислительным мощностям.
Примечания:
30 решений, представленных в этой подборке, созданы компаниями, базирующимися в Москве, 2 представлены разработчиками из Санкт-Петербурга, еще 1 создано в Нижнем Новгороде.
Имеющие торговые названия цифровые решения от столичных команд подробно представлены в специальных карточках на ICT.Moscow. Из них можно узнать о предназначении каждого продукта, там же приводятся необходимые ссылки и имеющиеся контакты разработчиков.
Команды из Москвы могут дополнить существующие карточки своих решений. Рассказать же о своем новом проекте может любой российский разработчик. Для этого достаточно написать по адресу hello@ict.moscow.