13:16, 24 декабря 2025

Российские генеративные модели вошли в мировую элиту Text-to-Video

Российские генеративные модели Kandinsky 5.0 Video показали один из лучших результатов в международном рейтинге LMArena. Российская разработка впервые так высоко поднялась в глобальной оценке качества генерации видео по тексту

В рейтинге LMArena Text-to-Video модель Kandinsky 5.0 Video Pro заняла первое место среди всех open-source (открытых) моделей. Это означает, что по качеству видео она обошла другие открытые модели, доступные разработчикам по всему миру. В общем списке выше оказались только закрытые продукты крупнейших мировых компаний Google, OpenAI, Alibaba и KlingAI.

Прямое сравнение

Рейтинг LMArena строится на прямом сравнении видео, созданных разными моделями по одинаковым текстовым запросам. Пользователи голосуют за тот вариант, который выглядит лучше. Формат позволяет оценивать не технические характеристики «на бумаге», а реальное качество генерации, движение, детализацию, соответствие текстовому запросу. Это соответствует общей тенденции.

Мировые тенденции

Генерация видео по тексту всё чаще оценивается по реальному визуальному результату, а не по описанию архитектуры или числу параметров. Пользователям важно, как выглядит движение, сцена и соответствие запросу. Одновременно растёт интерес к открытым моделям, которые можно дорабатывать и встраивать в собственные продукты.

Еще одну тенденцию составляет уменьшение размеров моделей без резкой потери качества. Компактные версии уже дают результат, который раньше требовал гораздо больше ресурсов. Отдельную роль играет работа с разными языками и культурным контекстом. Модели, уверенно генерирующие видео не только на английском, получают заметное преимущество. Всё это постепенно превращает генерацию видео из демонстрационной технологии в рабочий инструмент для креативных и прикладных задач.

Опередить Sora

Вторая модель отечественной линейки Kandinsky 5.0 Video Lite тоже вошла в мировой рейтинг. При размере около двух миллиардов параметров она показала результаты выше, чем первая версия Sora, с которой несколько лет назад начался массовый интерес к генерации видео.

Видео и текст

Kandinsky 5.0 Video — это генеративные модели, которые создают короткие видеоролики по текстовому описанию. Пользователь задаёт сцену словами, а модель по шагам формирует видеоряд: сначала общую композицию и движение, затем детали, свет и текстуры. Генерация идёт не по отдельным кадрам вручную, а как единый процесс, поэтому движения выглядят связно, а сцены — цельно. Модели понимают запросы на русском и английском языках, корректно работают с текстом в кадре и создают видео до десяти секунд в HD-качестве с частотой 24 кадра в секунду. Версия Pro ориентирована на максимальное качество и открыта для разработчиков, Lite — компактнее, быстрее и удобнее для тестов и прикладных задач.

Выход Kandinsky 5.0 в мировой топ — это первый, но уже точно не последний случай для российской генеративной модели. Отечественные команды разработчиков способны не просто конкурировать на равных в одной из самых сложных и быстро развивающихся областей ИИ, но и превосходить конкурентов, затрачивая при этом несопоставимо меньше ресурсов.

Цифровые продукты и платформы