T-Pro
Большая языковая модель
Выложенная в общий доступ T-Pro выпущена в размере 32,8 млрд параметров. Модель на базе модели семейства Qwen-2.5 с помощью технологии продолженного предобучения (Continual pretraining) специально адаптировали для работы на русском языке и выполнения определенных задач. Обучение происходило в формате BF16 на четырех графических процессорах NVIDIA H100. Разработчики дообучали модель на русскоязычных данных из Common Crawl, текстах книг, коде и проприетарных датасетах. На всех этапах обучения базовая длина контекста составляла восемь тыс. токенов.
Модель можно тонко настроить под выполнение требуемых бизнес-задач и/или использовать в режиме промптинга — использования для конкретных задач с помощью подробных инструкций. Разработчики предупредждают, что T-Pro не предназначена для использования в качестве готового голосового ИИ-ассистента. Также они рекомендуют использовать метод генерации с дополненной выборкой (RAG) и тонкую настройку при создании продуктов на основе модели.
T-Pro была представлена группой компаний «Т-технологии» в декабре 2024 года.