Nova IA da OpenAI dĂĄ sinais de superinteligĂȘncia e empresa convoca testes de segurança

Startup encerra o ano com o OpenAI o3, segunda geração da sua nova famĂ­lia de modelos de inteligĂȘncia artificial

Por EstadĂŁo 20/12/2024

AtĂ© aqui, LLMs melhoravam sua capacidade de resposta apenas aumentando o tamanho dos dados em que eram treinados – uma vez treinado, o sistema tenta responder o mais rĂĄpido possĂ­vel, buscando a conexĂ”es mais comuns entre palavras. Agora, os pesquisadores demonstraram que a performance tambĂ©m melhora quando Ă© investido mais tempo de processamento para o sistema avaliar os dados que jĂĄ possui, o que permite a busca por diferentes caminhos a uma resposta. Neste mĂȘs, o Google tambĂ©m apresentou a nova versĂŁo do Gemini, que apresenta recursos para raciocinar as respostas, algo que deve se tornar comum entre os maiores modelos de IA do mundo.

O curioso Ă© que a OpenAI desistiu do nome “o2″ para nĂŁo causar confusĂŁo com a empresa de telecomunicação britĂąnica “O2″.

Nova IA da OpenAI dĂĄ sinais de superinteligĂȘncia e empresa convoca testes de segurança

CEO da empresa deixou maior anĂșncio para o Ășltimo dia Foto: Jeff Chiu/AP

Nos testes apresentados pela OpenAI, o o3 acertou 96,7% das questĂ”es das OlimpĂ­adas de MatemĂĄtica dos EUA contra 83% da o1. JĂĄ no GPQA Diamond, um teste com perguntas de nĂ­vel PhD, a nova versĂŁo saltou 78% para 87,7%. No teste SWE-Bench Verified, que mede habilidades em programação, o sistema atingiu a nota de 2727 – uma nota de 2400 jĂĄ o classifica no 1% entre os programadores mais habilidosos do mundo.

Com isso, Sam Altman, CEO da companhia, afirmou que os testes atuais para medir a qualidade de sistemas de IA estĂŁo se esgotando – ou seja, as IAs estĂŁo prĂłximas de aproveitamento de 100%. Assim, o campo da IA precisa de novas provas para verificar a capacidade dos sistemas. O executivo mostrou uma parceria com ARC-AGI, uma organização que cria testes inĂ©ditos para comparar a capacidade de inteligĂȘncia de mĂĄquinas com humanos. No teste feito para avaliar se um sistema de IA aprende habilidades que nĂŁo estavam presentes nos dados de seus treinamentos, o o3 atingiu uma nota de 87,5% quando configurada para poder computacional mĂĄximo. Isso acendeu uma luz amarela na empresa.

Segurança vira conversa

Embora ainda nĂŁo tenha alcançado o status de AGI (quando uma mĂĄquina tem capacidade cognitiva similar ou maior que a humana), os resultados no ARC-AGI indicam que o sistema avançou e que a classificação jĂĄ pode ser alcançada pela IA em algumas poucas situaçÔes. Especialistas, no entanto, divergem sobre a definição e mensuração. “NĂŁo hĂĄ consenso que se possa mensuração de AGI com esses benchmarks – atĂ© para medir habilidades de humanos nĂŁo hĂĄ consenso sobre esses testes”, explica Anderson Soares, coordenador do primeiro bacharelado em InteligĂȘncia Artificial da Universidade de GoiĂĄs (UFG).

Ainda assim, a OpenAI decidiu disponibilizar o sistema para testes com pesquisadores de segurança externos – os interessados devem se candidatar no site da companhia.

“Os avanços nas capacidades dos LLMs, como os demonstrados pelo o1 e o3, trazem riscos substanciais. À medida que os modelos ganham mais inteligĂȘncia e autonomia, a escala de possĂ­veis danos que podem ser causados pelas IAs por desalinhamento ou uso indevido aumenta drasticamente”, disse a companhia. Assim, a companhia publicou um artigo no qual diz que criou uma tĂ©cnica de “alinhamento de valores” em sistemas que usam tĂ©cnicas de raciocĂ­nio.

Segundo a companhia, a técnica evita prompts prejudiciais e é mais permissiva com solicitaçÔes benignas.

Bloqueador de anuncios detectado

Por favor, considere apoiar nosso trabalho desativando a extensĂŁo de AdBlock em seu navegador ao acessar nosso site. Isso nos ajuda a continuar oferecendo conteĂșdo de qualidade gratuitamente.