logo Cultura-Ru-Edu

Cultura-Ru-Edu

Датасет для обучения больших языковых моделей

Описание:

Датасет Cultura-Ru-Edu состоит из 140 млн обучающих текстовых веб-материалов на русском языке, отобранных из набора данных CulturaX моделью-классификатором на основе модели USER.

Cultura-Ru-Edu опубликован разработчиками из лаборатории искусственного интеллекта VK Lab в ноябре 2024 года. Доступен как открытое ПО.


Репозиторий на Hugging Face

Датасет аннотаций, которые использовались для обучения классификатора


👤 Егор Спирин


logo Cultura-Ru-Edu
Проект запущен:
2024
Последнее обновление:11.11.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.