Единственным ограничением для ваших GIF-файлов станет ваше воображение.
Теперь, когда ChatGPT и Midjourney в значительной степени стали мейнстримом, следующая большая гонка ИИ встала на эта генераторов текста в видео – и Nvidia только что продемонстрировала несколько впечатляющих демонстраций технологии, которая может вывести ваши GIF-файлы на новый уровень.
Новая исследовательская работа и микро-сайт от лаборатории Nvidia в Торонто, под названием «Синтез видео высокого разрешения с моделями скрытой диффузии, даёт нам представление о невероятных инструментах создания видео, которые вот-вот присоединятся к постоянно растущему списку лучших генераторов искусственного интеллекта.
Модели скрытой диффузии (или LDM) – это тип ИИ, способный генерировать видео, не требуя значительных вычислительных мощностей. Nvidia утверждает, что её технология способна на это, опираясь на работу генераторов преобразования текста в изображение, в данном случае Stable Diffusion, а затем добавляя «временное измерение к модели диффузии в скрытом пространстве».
(Изображение предоставлено: Nvidia)
Другими словами, генеративный ИИ может заставить статичные изображения реалистично двигаться и масштабировать их вплоть до использования методов сверхвысокого разрешения. Это значит, что система способна создавать короткие видеоролики продолжительностью 4,7 секунды с разрешением 2048 х 1280 пикселей или более длинные видеоролики с понижением разрешения до 1024 х 512.
Когда мы увидели первые демоверсии (например, те, что вы увидите выше и ниже), мы решили, что эта новинка преобразит возможности игры с GIF’ами. Хорошо, есть и более важные последствия, такие как демократизация создания видео и перспектива автоматической адаптации фильмов, но на данном этапе преобразование текста в GIF кажется наиболее захватывающим вариантом использования.
(Изображение предоставлено: Nvidia)
Простые формулировки, такие как «штурмовик пылесосит пляж» и «плюшевый медведь играет на электрогитаре, высокое разрешение, 4K», возвращают достойные результаты, даже если в некоторых из них видимы артефакты и трансформации.
Прямо сейчас это делает технологию преобразования текста в видео, такую как новые демонстрации Nvidia, наиболее подходящей для миниатюр и GIF-файлов. Но, учитывая быстрое развитие, наблюдаемое в генерации искусственного интеллекта Nvidia для более продолжительных сцен, скорее всего, не долго ждать осталось и более продолжительных клипов на основе преобразования текста в видео.
Анализ: следующий рубеж для генеративного ИИ
(Изображение предоставлено: Runway)
Nvidia – не первая компания, которая хвастается генератором текста в видео с помощью искусственного интеллекта. Недавно мы видели дебют Google Phenaki, который раскрыл потенциал создания 20-секундных клипов, основанных на более длинных формулировках. Демоверсии также показывают весьма динамичные клипы, которые длятся более двух минут.
Стартап Runway, который помог в создании генератора текста в изображение Stable Diffusion, также представляет свою видео-модель Gen-2 AI в прошлом месяце. Наряду с реагированием на такие запросы, как «Закатное солнце заглядывает в окно нью-йоркского лофта», система позволяет вам предоставить статичное изображение, на основе которого ИИ сгенерирует видео, а также позволяет указать стиль реализации этого видео.
Последняя технология стала темой недавних демонстраций в Adobe Firefly, демонстрируя, как ИИ может упростить редактирование видео. В таких программах, как Adobe Premiere Rush, вы скоро сможете вводить время суток или время года, которое хотите видеть в своём видео, а искусственный интеллект Adobe сделать всё остальное.
Последние демонстрации от Nvidia, Google и Runway показывает, что полноценная генерация текста в видео пока ещё туманна, зачастую возвращая странные или искаженные результаты. Но на данный момент эта технология прекрасно подходит для того, чтобы поиграть с GIF’ами – а скорейшие улучшения, которые сделают технологию пригодной для создания более продолжительного видео, наверняка не за горами.