logo Cultura-Ru-Edu

Cultura-Ru-Edu

Датасет для обучения больших языковых моделей

Описание:

Cultura-Ru-Edu состоит из 140 млн обучающих текстовых веб-материалов на русском языке, отобранных из набора данных CulturaX моделью-классификатором на основе модели USER. Кроме того, создатели также выложили в открытый доступ датасет аннотаций, которые использовались для обучения классификатора.

Разработчики из лаборатории искусственного интеллекта VK Lab предоставили доступ к датасету в ноябре 2024 года.


👤 Егор Спирин


logo Cultura-Ru-Edu
Проект запущен:
2024
Последнее обновление:12.02.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0