“`json
{
"title": "Último Exame da Humanidade: Ferramenta Aberta com Contribuição Brasileira Revela Nível de Exatidão das IAs em Conhecimento Global",
"subtitle": "O Humanity’s Last Exam (HLE) é um banco de dados público que desafia modelos de linguagem, medindo sua eficiência em diversas áreas do conhecimento humano.",
"content_html": "<p>Pesquisadores de diversas partes do mundo, incluindo participação brasileira, desenvolveram uma ferramenta inovadora para avaliar com alta precisão os sistemas de Inteligência Artificial (IA). Batizado de Humanity’s Last Exam (HLE), que em português significa “Último Exame da Humanidade”, este banco de dados avançado reúne um vasto conjunto de questões sobre múltiplas áreas do saber humano, desde ciências naturais e matemática até humanidades.</p><h3>O Que é o HLE e Qual Seu Propósito?</h3><p>O HLE foi concebido como um “benchmark supremo”, um teste definitivo para medir o avanço e as capacidades dos novos modelos de IA. Segundo Emily de Oliveira Santos, pesquisadora do Instituto de Ciências Matemáticas e da Computação (ICMC) da USP, em São Carlos, que colaborou no desenvolvimento do projeto, a ideia é "essencialmente criar uma ferramenta para medir o avanço dos modelos de IA de hoje". Com 2.500 questões distribuídas em dezenas de assuntos, o HLE busca aferir a capacidade de resposta dos modelos de IA, permitindo que desenvolvedores e pesquisadores acompanhem a evolução dessas tecnologias.</p><h3>Como a Ferramenta Avalia as IAs?</h3><p>Diferentemente de outros testes, o HLE se destaca por suas respostas objetivas e unicamente determinadas. "Isso significa que todas as respostas são objetivas e únicas, quer dizer, dois especialistas em um determinado assunto chegariam exatamente numa mesma resposta correta", relata Emily Santos. As respostas, geralmente números inteiros ou informações de fácil verificação, permitem que um programa de computador (script) rode os modelos de IA, como os Large Language Models (LLMs), nos problemas do benchmark. O script extrai a resposta final gerada pelo LLM e verifica a porcentagem de acertos, fornecendo uma métrica clara do desempenho do modelo.</p><h3>Diversidade de Habilidades Testadas</h3><p>A amplitude do HLE permite testar uma gama variada de habilidades. "Como o HLE é um benchmark diverso, ele vai testar uma variedade bem grande de habilidades em geral", afirma a pesquisadora. Isso inclui conhecimentos científicos aprofundados, como a aplicação da equação de Schrödinger em mecânica quântica, mas também aspectos mais amplos como senso comum, conhecimento geral do mundo e até mesmo a “agência” – a capacidade de realizar ações. Um exemplo citado é a tarefa de fazer um origami de tsuru, desmontá-lo e contar o número de áreas particionadas pelo papel após as dobras.</p><h3>Disponibilidade e Impacto Global</h3><p>O Humanity’s Last Exam está disponível para uso público no site lastexam.ai, com o objetivo de subsidiar pesquisas e orientar políticas públicas sobre as capacidades da inteligência artificial. Sua metodologia e resultados foram detalhados em um artigo publicado em janeiro na renomada revista <i>Nature</i>. O projeto é fruto de um esforço colaborativo do Center of AI Safety e Scale AI, em São Francisco (Estados Unidos), e do HLE Contributors Consortium, que congrega pesquisadores de mais de 40 países. No Brasil, além de Emily de Oliveira Santos, Felipe Meneguitti Dias e Benedito Alves de Oliveira Junior, do ICMC/USP, também contribuíram significativamente para esta iniciativa global.</p>"
}
“`
Fonte: jornal.usp.br


