Até aqui, LLMs melhoravam sua capacidade de resposta apenas aumentando o tamanho dos dados em que eram treinados – uma vez treinado, o sistema tenta responder o mais rápido possível, buscando a conexões mais comuns entre palavras. Agora, os pesquisadores demonstraram que a performance também melhora quando é investido mais tempo de processamento para o sistema avaliar os dados que já possui, o que permite a busca por diferentes caminhos a uma resposta. Neste mês, o Google também apresentou a nova versão do Gemini, que apresenta recursos para raciocinar as respostas, algo que deve se tornar comum entre os maiores modelos de IA do mundo.

📲Participe do canal do ContilNet no InstagramToque para entrar e acompanhar as novidades

O curioso é que a OpenAI desistiu do nome “o2″ para não causar confusão com a empresa de telecomunicação britânica “O2″.

Nova IA da OpenAI dá sinais de superinteligência e empresa convoca testes de segurança

CEO da empresa deixou maior anúncio para o último dia Foto: Jeff Chiu/AP

Nos testes apresentados pela OpenAI, o o3 acertou 96,7% das questões das Olimpíadas de Matemática dos EUA contra 83% da o1. Já no GPQA Diamond, um teste com perguntas de nível PhD, a nova versão saltou 78% para 87,7%. No teste SWE-Bench Verified, que mede habilidades em programação, o sistema atingiu a nota de 2727 – uma nota de 2400 já o classifica no 1% entre os programadores mais habilidosos do mundo.

Com isso, Sam Altman, CEO da companhia, afirmou que os testes atuais para medir a qualidade de sistemas de IA estão se esgotando – ou seja, as IAs estão próximas de aproveitamento de 100%. Assim, o campo da IA precisa de novas provas para verificar a capacidade dos sistemas. O executivo mostrou uma parceria com ARC-AGI, uma organização que cria testes inéditos para comparar a capacidade de inteligência de máquinas com humanos. No teste feito para avaliar se um sistema de IA aprende habilidades que não estavam presentes nos dados de seus treinamentos, o o3 atingiu uma nota de 87,5% quando configurada para poder computacional máximo. Isso acendeu uma luz amarela na empresa.

Segurança vira conversa

Embora ainda não tenha alcançado o status de AGI (quando uma máquina tem capacidade cognitiva similar ou maior que a humana), os resultados no ARC-AGI indicam que o sistema avançou e que a classificação já pode ser alcançada pela IA em algumas poucas situações. Especialistas, no entanto, divergem sobre a definição e mensuração. “Não há consenso que se possa mensuração de AGI com esses benchmarks – até para medir habilidades de humanos não há consenso sobre esses testes”, explica Anderson Soares, coordenador do primeiro bacharelado em Inteligência Artificial da Universidade de Goiás (UFG).

Ainda assim, a OpenAI decidiu disponibilizar o sistema para testes com pesquisadores de segurança externos – os interessados devem se candidatar no site da companhia.

“Os avanços nas capacidades dos LLMs, como os demonstrados pelo o1 e o3, trazem riscos substanciais. À medida que os modelos ganham mais inteligência e autonomia, a escala de possíveis danos que podem ser causados pelas IAs por desalinhamento ou uso indevido aumenta drasticamente”, disse a companhia. Assim, a companhia publicou um artigo no qual diz que criou uma técnica de “alinhamento de valores” em sistemas que usam técnicas de raciocínio.

Segundo a companhia, a técnica evita prompts prejudiciais e é mais permissiva com solicitações benignas.

Segurança vira conversa

Notícias relacionadas

Crise na Argentina faz consumidores trocarem carne boi por carne de burro

Cruzeiro do Sul distribui mudas de café do programa sustentável

Bloqueador de anuncios detectado