
Датасет для обучения больших языковых моделей
Cultura-Ru-Edu состоит из 140 млн обучающих текстовых веб-материалов на русском языке, отобранных из набора данных CulturaX моделью-классификатором на основе модели USER. Кроме того, создатели также выложили в открытый доступ датасет аннотаций, которые использовались для обучения классификатора.
Разработчики из лаборатории искусственного интеллекта VK Lab предоставили доступ к датасету в ноябре 2024 года.
#искусственный_интеллект#генеративный_ИИ#нейросети#машинное_обучение#open_source
Разработчик:Подборка решений: MLOps и LLMOps
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.