En abril, una nueva empresa de Nueva York llamada Runway AI presentó una tecnología que permite a las personas generar videos, como una vaca en una fiesta de cumpleaños o un perro charlando en un teléfono inteligente, simplemente escribiendo una frase en un cuadro en la pantalla de una computadora. pantalla.
Los videos de cuatro segundos estaban borrosos, entrecortados, distorsionados e inquietantes. Pero fueron una señal clara de que las tecnologías de inteligencia artificial generarían vídeos cada vez más atractivos en los meses y años venideros.
Apenas 10 meses después, OpenAI, una nueva empresa de San Francisco, presentó un sistema similar que crea videos que parecen sacados de una película de Hollywood. Una demostración incluyó videos cortos, creados en minutos, de mamuts lanudos trotando por un prado cubierto de nieve, un monstruo mirando una vela derritiéndose y una escena callejera de Tokio aparentemente capturada por una cámara que recorría la ciudad.
OpenAI, la compañía detrás del chatbot ChatGPT y el generador de imágenes fijas DALL-E, se encuentra entre las muchas empresas que compiten para mejorar este tipo de generador de video instantáneo, incluidas empresas emergentes como Runway y gigantes tecnológicos como Google y Meta, el propietario de Facebook e Instagram. La tecnología podría acelerar el trabajo de cineastas experimentados, reemplazando por completo a los artistas digitales menos experimentados.
También podría convertirse en una forma rápida y económica de crear información errónea en línea, haciendo aún más difícil descubrir qué es real en Internet.
“Estoy absolutamente aterrorizado de que este tipo de cosas pueda afectar una elección tan reñida”, dijo Oren Etzioni, profesor de la Universidad de Washington que se especializa en inteligencia artificial. También es el fundador de True Media, una organización sin fines de lucro que trabaja para identificar información errónea en línea en campañas políticas.
OpenAI llama a su nuevo sistema Sora, de la palabra japonesa que significa cielo. El equipo detrás de la tecnología, incluidos los investigadores Tim Brooks y Bill Peebles, eligió el nombre porque “evoca la idea de un potencial creativo ilimitado”.
En una entrevista, también dijeron que la compañía aún no ha hecho público a Sora porque todavía está trabajando para comprender los peligros del sistema. En cambio, OpenAI está compartiendo la tecnología con un pequeño grupo de académicos y otros investigadores externos que la “equiparán”, un término para buscar formas en que pueda usarse indebidamente.
“La intención aquí es proporcionar una vista previa de lo que está en el horizonte, para que la gente pueda ver las capacidades de esta tecnología y podamos obtener comentarios”, dijo el Dr. Brooks.
OpenAI ya está marcando videos producidos por el sistema con marcas de agua que los identifican como generados por IA, pero la compañía reconoce que se pueden eliminar. También pueden ser difíciles de detectar. (El New York Times agregó la marca de agua “Generado por IA” a los videos con esta historia).
El sistema es un ejemplo de inteligencia artificial generativa, capaz de crear instantáneamente texto, imágenes y sonidos. Al igual que otras tecnologías de IA generativa, el sistema de OpenAI aprende analizando datos digitales, en este caso videos y subtítulos que describen lo que contienen esos videos.
OpenAI se negó a decir de cuántos videos aprendió el sistema o de dónde vinieron, excepto para decir que la capacitación incluyó tanto videos disponibles públicamente como videos con licencia de los titulares de derechos de autor. La empresa dice poco sobre los datos que utiliza para entrenar sus tecnologías, probablemente porque quiere mantener una ventaja sobre sus competidores, y ha sido demandada varias veces por utilizar material protegido por derechos de autor.
(El New York Times demandó a OpenAI y su socio, Microsoft, en diciembre, alegando infracción de derechos de autor de contenido de noticias relacionado con sistemas de inteligencia artificial).
Sora genera vídeos en respuesta a descripciones breves, como “un mundo de papel bellamente representado de un arrecife de coral, lleno de peces coloridos y criaturas marinas”. Si bien los videos pueden ser impresionantes, no siempre son perfectos y pueden incluir imágenes extrañas e ilógicas. El sistema, por ejemplo, generó recientemente un vídeo de alguien comiendo una galleta, pero la galleta nunca se hizo más pequeña.
DALL-E, Midjourney y otros generadores de imágenes fijas han mejorado tan rápidamente en los últimos años que ahora producen imágenes que son casi indistinguibles de las fotografías. Esto ha hecho que sea más difícil identificar información errónea en línea, y muchos artistas digitales se quejan de que les ha dificultado encontrar trabajo.
“Todos nos reímos en 2022 cuando Midjourney salió por primera vez y dijo: ‘Oh, qué lindo’”, dijo Reid Southen, un artista conceptual cinematográfico de Michigan. “Ahora la gente está perdiendo sus empleos debido a Midjourney”.