Сбер представил обновленную версию нейросети для генерации видео
На конференции GigaConf была анонсирована новая версия нейросети Kandinsky 4.1 Video. По словам старшего вице-президента банка, данная система позволяет создавать 10-секундные видеоролики в HD-качестве по текстовому описанию или исходному кадру. Первые по времени доступ к технологиям получили участники конференции, а также профессиональные дизайнеры.
«Kandinsky 4.1 Video предоставляет качественно новый уровень генерации видео. Модель значительно улучшилась по всем параметрам: по соответствию помпту, визуальному качеству, а также качествация генерации движений. Кроме того, она способна моделировать физику мира. Такие разработки открывают беспрецедентные возможности как для дизайнеров, так и для представителей различных креативных индустрий, работающих над созданием высококачественного видеоконтента», — отметил Андрей Белецев.
Модель Kandinsky 4.1 Video генерирует видеоряд продолжительностью до 10 секунд в разрешении SD (720×576) или HD (1280×720) по любому текстовому описанию, подчеркнул Белецев. Новая архитектура диффузионного трансформера была дополучена путем работы с более чем 100 экспертами-художниками и фотографами.
Разработчики уделили особое внимание оптимизации вычислительных процессов. Благодаря методам дистилляции и ускорения, время генерации сократилось более чем втрое по сравнению с предыдущей версией, которая была представлена в ноябре 2023 года. При этом в отдельных сценариях качество выходного материала даже улучшилось.
Система поддерживает создание роликов с произвольным соотношением сторон, что позволяет адаптировать контент под различные платформы и маркетинговые задачи. Kandinsky 4.1 Video станет доступна всем пользователям в ближайшее время, продолжая линейку генеративных технологий Сбера, которая включает текстовые и графические нейросети.