OpenAI Lança GPT-5.4 com Uso Nativo de Computador e Janela de Contexto Expandida

Pontos principais
- A OpenAI lançou o GPT-5.4 em três configurações: padrão, Pensamento e Pro.
- Testes de benchmark mostram que o modelo iguala ou supera os profissionais em muitas tarefas.
- O uso nativo de computador permite que o modelo opere softwares e execute fluxos de trabalho multietapas.
- A janela de contexto foi expandida para um limite de 1 milhão de tokens para processamento de documentos completos.
- Um novo sistema de busca de ferramentas reduz o uso de tokens recuperando definições de ferramentas sob demanda.
- A avaliação de segurança (Controllabilidade da Cadeia de Pensamento) indica baixa capacidade de ocultar o raciocínio.
- O lançamento ocorre durante uma competição intensa entre modelos de IA de fronteira.
A OpenAI lançou o GPT-5.4, um novo modelo de fronteira oferecido em três configurações para cargas de trabalho gerais, intensivas em raciocínio e de alta demanda. O modelo apresenta ganhos de benchmark em tarefas profissionais, introduz o uso nativo de computador e expande a janela de contexto para um limite de 1 milhão de tokens. Um sistema de busca de ferramentas redesenhado reduz o uso de tokens, e uma nova avaliação de segurança testa a controllabilidade da cadeia de pensamento. O lançamento posiciona o GPT-5.4 como o modelo mais capaz da OpenAI para trabalho profissional, destacando a competição contínua na fronteira da IA.
Lançamento do Modelo e Configurações
A OpenAI anunciou o GPT-5.4, descrevendo-o como o modelo de fronteira mais capaz e eficiente da empresa para trabalho profissional. O modelo está disponível em três versões: uma versão padrão para uso geral, uma variante "Pensamento" projetada para tarefas que se beneficiam do raciocínio prolongado da cadeia de pensamento, e uma versão "Pro" destinada às cargas de trabalho de maior demanda. A opção "Pensamento" está acessível a assinantes Plus, Team e Pro, enquanto a versão "Pro" é reservada para planos de ChatGPT de maior preço.
Desempenho de Benchmark
De acordo com as avaliações internas da OpenAI, o GPT-5.4 iguala ou supera os profissionais da indústria na maioria das comparações de tarefas profissionais, melhorando as versões anteriores. Em um benchmark de navegação de desktop, o modelo alcançou uma taxa de sucesso que supera o benchmark de desempenho humano relatado. Ele também liderou um benchmark de tarefas profissionais que avalia fluxos de trabalho sustentados em campos como banco de investimentos e direito corporativo. A OpenAI relata reduções nos erros factuais e alucinações em comparação com as versões anteriores.
Novas Capacidades
A adição mais significativa é o uso nativo de computador, que permite que o modelo opere softwares, navegue em sistemas de arquivos e execute fluxos de trabalho multietapas sem frameworks agênticos externos. Essa capacidade está integrada ao modelo de propósito geral, simplificando a integração para os desenvolvedores. A API também suporta uma janela de contexto de até 1 milhão de tokens, mais do que o dobro do limite anterior, permitindo o processamento de contexto completo de grandes documentos, bases de código e registros financeiros.
Melhorias de Eficiência
Um sistema de busca de ferramentas redesenhado permite que o modelo recupere definições de ferramentas sob demanda, cortando o uso de tokens pela metade em testes internos. Essa redução se traduz em menores custos e respostas mais rápidas para sistemas agênticos de grande escala.
Avaliação de Segurança
A OpenAI introduziu uma avaliação de código aberto chamada Controllabilidade da Cadeia de Pensamento, que testa se o modelo pode deliberadamente obscurecer seu raciocínio para evadir a monitoração. Os resultados sugerem que o modelo apresenta baixa capacidade de ocultar sua cadeia de pensamento, o que a OpenAI considera um sinal de segurança positivo.
Paisagem Competitiva
O lançamento ocorre em meio a uma competição intensa de outros modelos de IA de fronteira, cada um liderando em diferentes categorias de benchmark. Embora o GPT-5.4 lidera no uso de computador de desktop e tarefas de trabalho de conhecimento profissional, outros modelos se destacam em codificação ou raciocínio abstrato. A cadência de lançamento rápida da OpenAI destaca sua estratégia de manter visibilidade em um mercado em constante movimento.