OpenAI lanzó la nueva versión de su modelo generativo de video, Sora 2, bajo la premisa de haber resuelto los fallos de consistencia física que afectaban a su predecesor. Sam Altman, director ejecutivo de la compañía, mostró los primeros clips donde la interacción de los objetos y la iluminación global responden a las leyes de la óptica con una precisión del 99%.
El anuncio generó un impacto inmediato en la industria de Hollywood, donde los sindicatos y especialistas en efectos visuales comenzaron a discutir la viabilidad de los sets de filmación físicos frente a la capacidad de renderizado de estos nuevos servidores.
Claude, la IA de Anthropic, supera a ChatGPT y se convierte en la app más descargada del iPhone
Esto no les gusta a los autoritarios
El ejercicio del periodismo profesional y crítico es un pilar fundamental de la democracia. Por eso molesta a quienes creen ser los dueños de la verdad.
La arquitectura del modelo se basa en una evolución de los diffusion transformers que permite procesar bloques de datos visuales con una comprensión más profunda del espacio tridimensional. A diferencia de la primera versión, donde los objetos solían deformarse o aparecer de la nada, Sora 2 mantiene la permanencia de la materia en escenas complejas.
En las pruebas de video distribuidas a través de la red social X, se observaron secuencias de fluidos y colisiones que respetan la gravedad de manera fáctica, eliminando el efecto de «sueño» o distorsión característico de la inteligencia artificial generativa de años anteriores.
La caída del valle inquietante y la física de la luz
El avance técnico más significativo de esta actualización reside en el cálculo de la iluminación global. Los ingenieros de OpenAI implementaron un sistema que simula cómo la luz rebota en las superficies de forma similar a los motores de renderizado de alta gama como Unreal Engine, pero de manera nativa mediante redes neuronales.
Esto significa que si un personaje se mueve frente a una fuente de luz, las sombras y los reflejos en sus ojos o piel cambian de forma coherente, evitando las inconsistencias que antes delataban el origen sintético del material.
La industria del cine recibió estos avances con una mezcla de fascinación y cautela técnica. La capacidad de generar planos secuencia sin errores de continuidad espacial reduce drásticamente los costos de postproducción, una etapa que tradicionalmente requiere meses de trabajo manual.
Según reportes técnicos de la compañía, el modelo fue entrenado con un volumen masivo de datos visuales que incluyen simulaciones físicas precisas, lo que le permite «entender» que un objeto sólido no puede atravesar a otro, una de las grandes falencias de los modelos presentados durante 2024.
Revolución STEM 2026: por qué los padres ahora eligen kits de ciencia manuales sobre las aplicaciones digitales
«Estamos viendo el paso de una IA que dibuja cuadros a una IA que comprende la geometría del mundo«, comentaron analistas del sector tecnológico tras revisar los white papers preliminares de la actualización.
Esta mejora en la consistencia temporal asegura que un personaje que sale de cuadro y vuelve a entrar mantenga exactamente la misma vestimenta y rasgos faciales, un requisito indispensable para cualquier narrativa cinematográfica profesional que aspire a la distribución comercial.
El debate por el desplazamiento laboral en postproducción
El despliegue de Sora 2 aceleró las conversaciones sobre la regulación del uso de IA en los grandes estudios. La preocupación principal no radica solo en la creación de contenido, sino en el desplazamiento de técnicos especializados en iluminación, texturizado y composición digital.
Los clips de prueba muestran que la herramienta puede generar entornos completos que antes requerían semanas de diseño en 3D, lo que plantea un escenario donde la producción de video se vuelve instantánea y dependiente de la capacidad de cómputo.
En el ámbito de la seguridad, OpenAI informó que mantiene protocolos de etiquetado de metadatos para identificar el contenido generado por sus servidores. Sin embargo, la calidad del fotorrealismo alcanzado dificulta la detección a simple vista por parte de los usuarios finales.
Los expertos en seguridad digital señalan que la frontera entre lo capturado por una lente física y lo procesado por los algoritmos de Altman se volvió prácticamente invisible para el ojo humano promedio, marcando un punto de inflexión en la veracidad de la imagen digital.
Encuentran un vapor de lujo hundido hace más de 150 años en el lago Michigan
El sistema de Sora 2 utiliza una infraestructura de chips especializados que optimizan el tiempo de inferencia, permitiendo generar clips de hasta 60 segundos en alta definición en una fracción del tiempo que requería la versión anterior.
La empresa confirmó que el acceso sigue restringido a un grupo selecto de artistas visuales y diseñadores para evaluar los riesgos antes de un lanzamiento masivo al público general. Esta fase de prueba busca identificar posibles fallos en la generación de movimientos humanos complejos, como el habla sincronizada y las microexpresiones faciales.
El entrenamiento del modelo incluyó el uso de la plataforma de supercomputación de Microsoft, utilizando miles de unidades de procesamiento gráfico (GPU) trabajando en paralelo. La arquitectura permite que el modelo reciba instrucciones en lenguaje natural extremadamente detalladas, transformando descripciones técnicas de cámaras, como «lente de 35mm con apertura f/1.8», en resultados visuales que replican exactamente las aberraciones cromáticas y el desenfoque de campo de una cámara profesional real.
