Como criar vídeos com inteligência artificial? Chegou o SORA, da OpenAI

A OpenAI, criadora do ChatGPT, anunciou recentemente o lançamento do Sora, uma nova ferramenta de inteligência artificial capaz de simular mundos reais a partir de textos instrutivos.


O Sora representa um grande avanço em relação às soluções de IA já existentes da empresa, como o popular ChatGPT e o sistema de geração de imagens DALL-E.

O ChatGPT rapidamente se tornou um dos aplicativos de maior crescimento da história, atingindo a marca de 1 milhão de usuários mais rapidamente que redes sociais como Facebook e Instagram. Seu diferencial é a capacidade de produzir textos coerentes a partir de prompts fornecidos pelo usuário.

Já o DALL-E gera imagens realistas com base em descrições textuais, utilizando uma abordagem similar ao ChatGPT. Ambas as soluções se destacam pelo uso de modelos de linguagem avançados, baseados em transformers e treinados com enormes conjuntos de dados.

O Sora também utiliza uma arquitetura de rede neural baseada em Transformers, assim como o ChatGPT. Os Transformers são modelos de processamento de linguagem natural que empregam mecanismos de atenção para entender relações complexas em sequências de dados. Isso permite que entendam contexto em textos e correlações em imagens ou vídeos.

Veja alguns exemplos:

A capacidade do Sora de gerar vídeos coerentes a partir de descrições textuais abre novas possibilidades para automação da criação de conteúdo multimídia. Certamente veremos aplicações em entretenimento, publicidade, simulações para treinamento, prototipagem rápida de ideias e muito mais. É uma evolução e tanto em deep learning generativo.

O Sora dá mais um passo nesta direção, sendo capaz de produzir vídeos hiper-realistas de até 1 minuto a partir da especificação textual de uma cena ou conceito. Conforme demonstrado nos exemplos liberados pela OpenAI, o Sora renderiza sequências complexas contendo múltiplos personagens, com movimentos precisos e respeitando as leis da física do mundo real.

Trata-se de uma evolução impressionante das capacidades de inteligência artificial generativa. O Sora consegue não apenas entender descrições textuais abstratas, mas também “imaginar” essas cenas no mundo físico tridimensional e renderizá-las foto-realisticamente em vídeo. Por isso, a OpenAI se refere ao Sora como um “simulador de mundos”.

Claro que, por se tratar de uma tecnologia nova e extremamente complexa, o Sora ainda apresenta limitações. Há casos relatados de confusões na orientação espacial da câmera ou na compreensão dos prompts textuais, resultando em vídeos semi-coerentes. Mas certamente são problemas passíveis de resolução à medida que os modelos forem refinados com mais dados e poder computacional.

O lançamento do Sora representa um avanço e tanto para o campo da IA generativa, abrindo novos horizontes para a criação automática de conteúdos multimídia imersivos. Resta saber como a OpenAI e outras empresas planejam aplicar essa tecnologia disruptiva daqui para frente.

Teoria Digital:
Related Post