Google presenta Lumiere: l'IA che crea video dalle foto e da un testo 1

Google presenta Lumiere: l’IA che crea video dalle foto e da un testo

Google, insieme al Weizmann Institute of Science e all’Università di Tel Aviv, ha presentato un suo nuovo progetto di Nome Lumiere, “un modello di diffusione spazio-temporale per la generazione di video”. Si tratta di un nuovo tipo di intelligenza artificiale in grado di generare video partendo da foto o testi.

Qui sotto il comunicato:

Presentiamo Lumiere, un modello di diffusione testo-video progettato per sintetizzare video che ritraggono movimenti realistici, diversificati e coerenti, una sfida fondamentale nella sintesi video. A tal fine, introduciamo un’architettura Spazio-Tempo U-Net che genera l’intera durata temporale del video in una sola volta, attraverso un singolo passaggio nel modello. Ciò è in contrasto con i modelli video esistenti che sintetizzano fotogrammi chiave distanti seguiti da una super-risoluzione temporale, un approccio che rende intrinsecamente difficile da raggiungere la coerenza temporale globale. Distribuendo down- e up-sampling sia spaziali che (soprattutto) temporali e sfruttando un modello di diffusione testo-immagine pre-addestrato, il nostro modello impara a generare direttamente un video a bassa risoluzione a frame rate completo elaborandolo in molteplici scale spazio-temporali. Dimostriamo risultati all’avanguardia nella generazione di testo in video e dimostriamo che il nostro design facilita facilmente un’ampia gamma di attività di creazione di contenuti e applicazioni di editing video, tra cui la conversione di immagini in video, l’inpainting di video e la generazione stilizzata.

Per maggiori info, clicca sulla pagina ufficiale del progetto.

Translate »