8
OpenBMB представила самую мощную модель MiniCPM-o 2.6 в серии MiniCPM-o
Мультимодальная модель построена на основе SigLip-400M (используется для анализа изображений), Whisper-medium-300M (для обработки речи), ChatTTS-200M (для синтеза голоса) и модели Qwen2.5-7B. Общее количество параметров MiniCPM-o 2.6 составило 8 млрд.
MiniCPM-o 2.6 поддерживает двуязычный речевой разговор в реальном времени с настраиваемыми голосами на английском и китайском языках.
Модель набирает средний балл 70,2 по оценке OpenCompass. Как утверждают разработчики, она также превосходит GPT-4o-202405, Gemini 1.5 Pro и Claude 3.5 Sonnet в понимании отдельных изображений. Также они отмечают, что модель показывает высокие результаты в понимании нескольких изображений и видео, а также демонстрирует способность к контекстному обучению.
🔗 Источник: https://t.me/mtsai/980
***
📎 Изучить веса на Hugging Face
ОригиналМультимодальная модель построена на основе SigLip-400M (используется для анализа изображений), Whisper-medium-300M (для обработки речи), ChatTTS-200M (для синтеза голоса) и модели Qwen2.5-7B. Общее количество параметров MiniCPM-o 2.6 составило 8 млрд.
MiniCPM-o 2.6 поддерживает двуязычный речевой разговор в реальном времени с настраиваемыми голосами на английском и китайском языках.
Модель набирает средний балл 70,2 по оценке OpenCompass. Как утверждают разработчики, она также превосходит GPT-4o-202405, Gemini 1.5 Pro и Claude 3.5 Sonnet в понимании отдельных изображений. Также они отмечают, что модель показывает высокие результаты в понимании нескольких изображений и видео, а также демонстрирует способность к контекстному обучению.
🔗 Источник: https://t.me/mtsai/980
***
📎 Изучить веса на Hugging Face