O Google essa semana apresentou o Phenaki, um modelo que pode sintetizar vídeos realistas a partir de sequências textuais.
A geração de vídeos a partir de texto é particularmente desafiadora devido a vários fatores, como alto custo computacional, durações variáveis de vídeo e disponibilidade limitada de dados de texto e vídeo de alta qualidade.Para resolver os dois primeiros problemas, Phenaki aproveita seus dois componentes principais:
- Um modelo codificador-decodificador que compacta vídeos em embeddings discretos, ou tokens, com um tokenizer que pode funcionar com vídeos de duração variável graças ao uso de atenção causal no tempo.
- Um modelo de transformador que traduz incorporações de texto em tokens de vídeo: usamos um transformador mascarado bidirecional condicionado a tokens de texto pré-computados para gerar tokens de vídeo a partir do texto, que são posteriormente destokenizados para criar o vídeo real.
“Visão em primeira pessoa de andar de moto em uma rua movimentada.”“Visão em primeira pessoa de andar de moto por uma estrada movimentada na floresta.”“Visão em primeira pessoa de andar de moto muito lentamente na floresta.”“Visão em primeira pessoa freando uma motocicleta na floresta.”“Correndo pela floresta.”“Visão em primeira pessoa de uma corrida pela floresta em direção a uma linda casa.”“Visão em primeira pessoa de uma corrida em direção a uma casa grande.”“Correndo pelas casas entre os gatos.”“O quintal fica vazio.”“Um elefante entra no quintal.”“O quintal fica vazio.”“Um robô entra no quintal.”“Um robô dança tango.”“Visão em primeira pessoa de correr entre casas com robôs.”“Visão em primeira pessoa da corrida entre as casas; no horizonte, um farol.”“Visão em primeira pessoa de voar no mar sobre os navios.”“Ampliar em direção ao navio.”“Diminua o zoom rapidamente para mostrar a cidade costeira.”“Diminua rapidamente o zoom da cidade costeira.”
Para resolver os problemas de dados, demonstramos que o treinamento conjunto em um grande corpus de pares imagem-texto e um número menor de exemplos de vídeo-texto pode resultar em generalização além do que está disponível apenas nos conjuntos de dados de vídeo.Quando comparado aos métodos anteriores de geração de vídeo, observamos que Phenaki poderia gerar vídeos arbitrariamente longos, condicionados a uma sequência de prompts de domínio aberto na forma de texto variável no tempo ou uma história. Até onde sabemos, esta é a primeira vez que um artigo estuda a geração de vídeos a partir de tais prompts variáveis no tempo.Além disso, observamos que nosso codificador-decodificador de vídeo superou todas as linhas de base por quadro atualmente usadas na literatura, tanto na qualidade espaço-temporal quanto no número de tokens por vídeo.
“Muito tráfego na cidade futurista.”
“Uma nave alienígena chega à cidade futurista.”
“A câmera entra na nave alienígena.”
“A câmera avança até mostrar um astronauta na sala azul.”
“O astronauta está digitando no teclado.”
“A câmera se afasta do astronauta.”
“O astronauta sai do teclado e caminha para a esquerda.”
“O astronauta deixa o teclado e vai embora.”
“A câmera se move além do astronauta e olha para a tela.”
“A tela atrás do astronauta mostra peixes nadando no mar.”
“Crash zoom no peixe azul.”
“Seguimos o peixe azul enquanto ele nada no oceano escuro.”
“A câmera aponta para o céu através da água.”
“O oceano e o litoral de uma cidade futurista.”
“Crash zoom em direção a um arranha-céu futurista.”
“A câmera amplia uma das muitas janelas.”
“Estamos em uma sala de escritório com mesas vazias.”
“Um leão corre em cima das mesas do escritório.”
“A câmera dá um zoom na cara do leão, dentro do escritório.”
“Amplie o leão vestindo um terno escuro em uma sala de escritório.”
“O leão que veste olha para a câmera e sorri.”
“A câmera se aproxima lentamente do exterior do arranha-céu.”
“Timelapse do pôr do sol na cidade moderna.”
Phenaki pode criar histórias visuais coerentes e longas a partir de uma cadeia de prompts, com uma resolução central de 128×128 pixels.
Queríamos entender se seria possível aproveitar a capacidade do Imagen Video de gerar vídeos de alta resolução com fidelidade fotorrealista sem precedentes e se beneficiar de seus módulos de super-resolução subjacentes para aprimorar a produção do Phenaki, com o objetivo de combinar os pontos fortes dessas duas abordagens em algo que poderia criar belas histórias visuais.
Para conseguir isso, alimentamos a saída do Phenaki gerada em um determinado momento (mais o prompt de texto correspondente) para o Imagen Video, que então executa a super-resolução espacial. Um ponto forte distinto do Imagen Video, em comparação com outros sistemas de super-resolução, é sua capacidade de incorporar o texto no módulo de super-resolução.
Para ver um exemplo que mostra como o sistema ponta a ponta funciona na prática, veja o exemplo anterior.
As legendas correspondentes a este exemplo são as seguintes:
“muito perto da onda do pinguim na prancha de surf amarela”
“O pinguim surfa na prancha amarela até a praia. Pinguim deixa prancha amarela e continua andando.”
“Pinguim andando rapidamente na praia e seguindo a câmera. Pinguim acena para a câmera. Pés passam pela câmera em primeiro plano”
“Um pinguim colide com 100 bolas saltitantes coloridas”
“diminuir zoom lentamente. pinguim sentado em um ninho de pássaro com um único ovo colorido”
“Reduzir o zoom. Vista aérea de um pinguim sentado em um ninho de pássaro na geleira antártica do arco-íris”