В конце июля группа «Т-Технологии» представила гибридную большую языковую модель T-Pro 2.0. Это уже как минимум 15-й заметный релиз модели искусственного интеллекта от российских разработчиков с начала года.
Большинство новых моделей созданы ИИ-экосистемами: компаниями «Сбер» (4 модели), МТС (3), «Яндекс» (2), «Т-Технологии» (2) и VK (1). К ним присоединились два игрока из сферы E-commerce — «Авито» (2) и Ozon (1).
Источник: Telegram-канал База знаний AI. Модели, представленные до 2025 года, можно найти в подборке ICT.Moscow
Нетрудно заметить, что большая часть новых разработок опирается на открытые зарубежные модели, и почти в половине случаев это решения семейства Qwen, созданные китайской Alibaba Cloud.
Из этого списка только две компании представили модели, полностью обученные с нуля, — это «Сбер» и «Яндекс». Опрошенные в конце прошлого года ICT.Moscow эксперты выделяли именно эти две ИИ-экосистемы как единственных, кто в России способен на подобные разработки с чистого листа, а их отставание от мировых лидеров оценивалось в считаные месяцы. Позже первый зампредседателя правления Сбербанка Александр Ведяхин говорил, что разработчики GigaChat отстают от коллег из американской OpenAI на «шесть — девять месяцев».
Александр Абрамов, исполнительный директор и руководитель команд ML/AI для B2C в SberAI, поясняет ICT.Moscow, что, разрабатывая с нуля, крупные игроки «могут получать от этого опыт, развитие технологий, выращивание кадров, конкурентное преимущество». Но свои преимущества есть и у иного подхода, продолжает эксперт, когда компании используют метод «горячего старта», берут модели с открытой лицензией и дообучают под свои нужды. В качестве примера он приводит американскую поисковую систему Perplexity AI, которая на старте не имела своей языковой модели и строилась вокруг уже доступных OpenAI API и кода Llama 2. «Однако сервис имел свои фичи, которые подкупили конечного потребителя», — заключает Александр Абрамов.
Самый многочисленный тип создаваемых моделей ИИ — это LLM. О них говорят и пишут чаще, чем о других типах нейросетей, а большинство последних значительных достижений в области ИИ, таких как «рассуждающие» (Reasoning) модели и механизмы CoT (Chain of Thought), применение метода RAG, касаются именно больших языковых моделей.
Но в феврале 2025 года «Яндекс» все-таки присоединился к числу тех, кто использует сторонние разработки. Компания презентовала новую модель YandexGPT 5 Pro, пайплайн обучения которой был инициализирован весами Open Source — модели Qwen 2.5. Руководитель команды Alignment YandexGPT Андрей Бут написал тогда на Habr, что «модели никогда не обучаются с нуля».
Это событие вызвало оживленную реакцию российских специалистов:
Сергей Марков, управляющий директор Управления экспериментальных систем машинного обучения SberDevices. Источник
Виктор Тарнавский, директор по искусственному интеллекту в Т-Банке. Источник
Действительно, надо отметить, что «Яндекс» не полностью перешел к стратегии дообучения сторонних открытых нейросетей. Так, меньшая модель новой линейки, YandexGPT 5 Lite, прошла полный процесс создания с нуля без использования весов чужих разработок.
Самая очевидная причина, почему «Яндекс» обратился к общедоступной модели, — это экономия вычислительных ресурсов, денег, времени, усилий на подготовку датасетов. Эту версию подтверждают большинство собеседников ICT.Moscow: эксперты из Научно-исследовательского вычислительного центра МГУ им. М.В. Ломоносова, лаборатории ИИ в МШУ «Сколково», MTS AI, VK Lab и «Авито».
По оценке руководителя направления фундаментальных технологий LLM Центра искусственного интеллекта Т-Банка (входит в «Т-Технологии») Анатолия Потапова, «обучение моделей с нуля, способных конкурировать с проприетарными решениями, обходится в $10–100 млн и более». При этом использование подхода, основанного на продолженном предобучении и последующем выравнивании, позволяет затрачивать «примерно в десять раз меньше средств и вычислительных ресурсов».
Опасения, высказанные ранее представителем «Сбера», в той или иной мере разделяют и другие эксперты. Например, в научном сообществе видят риски отставания российских разработчиков и напоминают о важности учитывать не только вопросы экономии:
научный сотрудник Лаборатории анализа информационных ресурсов Научно-исследовательского вычислительного центра МГУ им. М.В. Ломоносова
Отсутствие опыта в обучении с нуля «может существенно замедлить прогресс и сделать зависимыми от чужих технологий», согласен Егор Спирин, руководитель VK Lab. «Совсем оставлять эксперименты по обучению своих LLM нельзя», ведь существует риск того, что «в какой-то момент компании перестанут делиться своими Open Source — моделями», предупреждает Анастасия Рысьмятова, руководитель разработки больших языковых моделей «Авито».
Но не все собеседники ICT.Moscow видят подобные риски. Александр Диденко, руководитель лаборатории ИИ в МШУ «Сколково» и автор исследования ценностных установок различных LLM, считает, что включение в международную кооперацию через Open Source, который работает поверх различных ограничений, напротив, «дает возможность развивать внутреннюю экспертизу, делать свой интеллектуальный вклад под реальный содержательный запрос».
руководитель лаборатории ИИ в МШУ «Сколково»
Для того чтобы при использовании российскими разработчиками зарубежных Open Source — моделей не возник технологический разрыв с иностранными конкурентами, важно сочетать дообучение с фундаментальными исследованиями, говорит Сергей Пономаренко из MTS AI.
руководитель направления LLM-продуктов MTS AI
Одна из самых популярных основ для дообучения — китайская нейросеть Qwen 2.5. Помимо шести приведенных выше российских моделей 2025 года, она лежит в основе, в частности, T-Lite и T-Pro, представленных Т-Банком в конце 2024 года.
Команда разработки фундаментальных моделей Лаборатории искусственного интеллекта Т-Банка поясняла, что Qwen 2.5 была выбрана в качестве основы на базе как англоязычных, так и русскоязычных бенчмарков. В «Авито» используют и общедоступные, и собственные бенчмарки при выборе базовой модели, рассказывала в своем выступлении в рамках фестиваля Data Fest 2024 Анастасия Рысьмятова.
Немалую роль при выборе базовой модели для дообучения, по мнению разработчиков из Т-Банка, играет также ее поведение в реальных сценариях использования. В частности, они проверяли способности моделей-кандидатов генерировать синтетические данные, переводить тексты на русский язык и решать задачи контекстного обучения (In-Context Learning, ICL).
При этом перейти с одной Open Source — модели в качестве базовой на другую не представляет особой сложности, уверен Михаил Тихомиров.
научный сотрудник Лаборатории анализа информационных ресурсов Научно-исследовательского вычислительного центра МГУ им. М.В. Ломоносова
По мнению Егора Спирина, перейти с одной модели для дообучения своего продукта на другую «абсолютно легко и незаметно»:
руководитель лаборатории искусственного интеллекта VK Lab
Об этом же говорит и Анастасия Рысьмятова. По ее словам, адаптировать с относительно небольшими модификациями можно многие ключевые компоненты той или иной нейросети, в частности русскоязычный токенизатор.
Однако потребуется значительное количество времени, предупреждает Сергей Пономаренко:
руководитель направления LLM-продуктов MTS AI
Времени требует и проведение А/B-тестов, добавляет Анастасия Рысьмятова. Однако это «позволяет объективно оценить влияние новой модели на ключевые метрики».
Выбор дообучать уже готовые нейросети делают и другие участники рынка. Так, Захар Понимаш, сооснователь стартапа FractalGPT, указывает, что это наиболее рациональный способ разработки моделей для стартапов, позволяющий сократить расходы. Однако это не единственный путь для небольших компаний, признает предприниматель.
основатель стартапа FractalGPT
В качестве основы может служить не только иностранная бесплатная модель, но и проприетарные варианты, в том числе — российские решения. Например, для дообучения методом LoRA (Low-Rank Adaptation) доступна нейросеть YandexGPT, а по API можно использовать GigaChat.
Модели узкой направленности и предназначенные для отдельных модальностей — это сфера, где весьма велико значение небольших компаний-разработчиков, указывает Кирилл Петров, сооснователь Just AI. Такие команды, поясняет специалист, берут базовые модели и «заворачивают» их в соответствующий нуждам клиентов продукт, иногда дообучая их или встраивая дополнительные нейросети.
Энтузиасты этой индустрии — отдельные разработчики и небольшие группы, которые не всегда руководствуются рыночной мотивацией при создании своих новых моделей, также выбирают путь усовершенствования Open Source — решений. В широком смысле, указывает Сергей Братчиков, один из таких энтузиастов, при дообучении их «интересует расширение способностей или достижение более высоких метрик на определенных бенчмарках относительно модели-оригинала».
Несмотря на то что лицензии многих выложенных в открытый доступ LLM часто допускают использование в коммерческих целях, применить их для бизнес-задач компании может быть непросто.
Разработчики из Лаборатории искусственного интеллекта Т-Банка отмечали, что большинство таких моделей обучаются на датасетах преимущественно на английском языке. При выполнении задач русскоязычных пользователей они переключаются между языками в одном предложении, плохо знают реалии русской культуры и в целом выдают ответы недостаточного качества. «Такие модели часто не оптимальны для узкоспециализированных задач нашего рынка», — резюмирует Анастасия Рысьмятова. К тому же они плохо справляются с написанием текстов на русском языке, добавляет Сергей Пономаренко:
руководитель направления LLM-продуктов MTS AI
Большинство открытых моделей выпускаются довольно неудобными для конечного использования, поясняет Сергей Братчиков, ИИ-разработчик и автор профильного Telegram-канала NLP Wanderer. Без тестирования на хороших бенчмарках, без адаптации под конкретные задачи вроде RAG и Function Calling (способности выделять из запроса пользователя необходимую функцию для выполнения) от существования этих решений в открытом доступе будет не так много смысла, считает эксперт.
ИИ-разработчик, автор Telegram-канала NLP Wanderer
Захар Понимаш подчеркивает, что русификация «помогает минимизировать вероятность перехода модели на другие языки при ответах на русском», что «особенно актуально для многоязычных моделей как, например, Qwen». Кроме того, дообучение предоставляет возможность адаптировать модель под узкие домены и настраивать стиль ответа для разработки нишевых продуктов.
руководитель разработки больших языковых моделей «Авито»
Несмотря на популярность и кажущуюся эффективность, использование дополнительного обучения несет с собой определенные ограничения, говорят ICT.Moscow многие из опрошенных экспертов. Например, нейросети могут генерировать ответы с использованием непривычных российскому пользователю терминов или «выдавать факты, которым мы не обучали ее», предупреждает Егор Спирин. Это происходит из-за того, что модель «при первичном обучении выучивает некую картину мира, и ее дообучение не может стереть ранее полученные данные».
Некоторые эксперты указывают на прямые угрозы безопасности при использовании таких решений. Так, Сергей Марков писал, что выкладывающие модели в общий доступ разработчики могут публиковать другие веса или добавлять в код нейросети «закладки». Такая возможность существует, согласен его коллега из МГУ им. М.В. Ломоносова.
научный сотрудник Лаборатории анализа информационных ресурсов Научно-исследовательского вычислительного центра МГУ им. М.В. Ломоносова
Для решения ряда проблем разработчики все чаще используют уже упомянутый ранее метод продолженного предобучения (Continual Pre-Training, CPT). Он, рассказывает Анастасия Рысьмятова, «позволяет взять уже обученную модель и дообучить ее на большом корпусе русскоязычных текстов». Метод, указывали его разработчики, решает проблему «катастрофического забывания» (Catastrophic Forgetting) модели.
Подход продолженного предобучения используют, в частности, исследователи из МГУ, подтвердил Михаил Тихомиров в ходе выступления на конференции GoCloud 2025. В своем комментарии для ICT.Moscow эксперт отметил, что, несмотря на то, что этот метод существенно дороже других способов дообучения, он позволяет значительно улучшить качество работы модели, в том числе снижая количество языковых галлюцинаций.
Резюмируя, Анастасия Рысьмятова называет тот факт, что компании-разработчики все чаще отходят от обучения моделей с нуля, «общемировой тенденцией». По ее словам, сегодня «бизнес фокусируется на эффективном применении моделей, а не соревнуется с технологическими гигантами в создании фундаментальных решений».
Это материал из серии публикаций ICT.Moscow о российском ландшафте ИИ-разработки. Предложить новую тему для статьи, подборки решений, карты рынка и других форматов этой серии можно, написав на hello@ict.moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.