Texto a vídeo: un clip a partir de una sola descripción

Si animar una foto parte de un fotograma listo, el text-to-video crea un clip desde cero — no tienes nada salvo una frase, y a la salida una escena en movimiento. Es el modo de generación más "mágico" y a la vez el más caprichoso: aquí el prompt lo decide todo.

Cómo funciona

Describes la escena con palabras — la red dibuja no un fotograma sino toda una secuencia, manteniendo un mundo único entre ellos: el mismo personaje, la luz, el movimiento de cámara. En esencia es generación de imágenes estirada en el tiempo, más una comprensión de la física del movimiento.

Por esto, el text-to-video es más caro y más caprichoso que el image-to-video: el modelo tiene que inventar a la vez el contenido y su movimiento. Por eso las escenas cortas (5–10 segundos) salen genial, mientras que un argumento largo y coherente aún se arma a partir de varios clips.

Describe una escena en una frase — obtén un clip. Una pista para la primera vez: "una calle de neón de noche bajo la lluvia, un travelling lento hacia delante, reflejos en los charcos, atmósfera cinematográfica". El vídeo cuesta más que las imágenes: un clip está disponible tras registrarte y el onboarding — que conceden tokens iniciales.

Aquí el clip que la red armó a partir de ese mismo prompt sobre la calle de neón — sin un solo fotograma de partida, solo a partir de texto. Prueba el tuyo abajo.

Загрузка…

De qué se compone un buen prompt de vídeo

Un prompt de imagen describe el encuadre. Un prompt de vídeo describe además el movimiento y el tiempo. Ten en mente cinco capas:

Escena — qué y dónde. "Un faro antiguo en una costa rocosa".
Movimiento en el encuadre — qué pasa. "…las olas rompen contra las rocas, las gaviotas vuelan en círculo".
Cámara — esto es nuevo e importante. "…un travelling lento de acercamiento", "una órbita", "una toma con dron", "un plano estático".
Luz y tiempo — "el sol del atardecer, sombras largas".
Estilo — "cinematográfico, como un fotograma de película", "animación 3D", "documental".

La diferencia principal con una imagen es la cámara. Son las palabras sobre el movimiento de cámara las que convierten una "postal con vida" en un "plano de cine". No indicas la cámara y el modelo decide por su cuenta, a menudo mal.

Errores frecuentes de principiante

Demasiada acción. "Una persona corre, salta, se gira y saluda" en 5 segundos se desmorona. Un movimiento claro por clip.
Texto y rótulos en el encuadre. Aún es un punto débil de casi todos los modelos — las letras "se desvían". Superpón el texto sobre el clip terminado por separado.
Manos complejas y multitudes. Un dolor clásico; cuantas menos haya en el encuadre, más estable el resultado.
Esperar un argumento largo. Piensa en "planos", no en "escenas": arma el clip a partir de varias generaciones cortas.

“10 prompts de vídeo que funcionan”

Plantillas listas para anuncios, redes, fondos atmosféricos y fotos de producto, con un análisis de qué palabras de cámara y luz dan “cine”.

Гость

Аккаунт

Входит в подписку

Qué sigue

Puedes crear una escena desde cero. Un caso específico pero muy demandado es cuando debe haber en el encuadre una persona que habla. Es un género aparte con sus propias reglas.

En el chat de Twelver un prompt de vídeo se escribe como un mensaje normal — el clip llega en la respuesta. Los tokens iniciales para vídeo se conceden tras registrarte y el onboarding.

Pruébalo tú mismo

Todo lo de esta guía funciona en Twelver

Un chat para texto, imágenes, vídeo, música y voz — sin servicios ni suscripciones aparte.

Abrir el chat de Twelver

Página relacionadaGeneración de Video

Оцените свой опыт