-
PSG goleia Nice e recupera liderança do Campeonato Francês
-
Liverpool e Chelsea perdem e abrem caminho para Aston Villa em luta por vaga na Champions
-
Irã ataca instalação nuclear em Israel
-
Milan vence Torino e recupera vice-liderança do Campeonato Italiano
-
De Gaza ao Líbano, o cirurgião que opera crianças feridas na guerra
-
Guerra de Trump contra Irã abala indecisos às vésperas das eleições de meio de mandato nos EUA
-
Bayern goleia Union Berlin e segue líder isolado do Alemão
-
EUA afirma ter destruído instalação iraniana no Estreito de Ormuz
-
Arsenal x City: o discípulo Arteta e o professor Guardiola duelam pela Copa da Liga Inglesa
-
Arbeloa diz que Mbappé está '100%' antes de clássico contra Atlético de Madrid
-
Hezbollah confirma confrontos com exército israelense em duas cidades do sul do Líbano
-
Borussia Dortmund renova contrato do capitão Emre Can, apesar de lesão
-
Liverpool perde para Brighton e segue fora do G4 no Inglês
-
Reis do k-pop BTS fazem show de retorno em Seul
-
Iranianos celebram fim do Ramadã sem Khamenei
-
Lens goleia Angers (5-1) e assume liderança provisória do Francês, à frente do PSG
-
Juiz dos EUA declara restrições do Pentágono à imprensa como inconstitucionais
-
EUA autoriza venda e entrega de petróleo iraniano carregado em navios
-
Napoli sofre mas vence na visita ao Cagliari (1-0) e assume vice-liderança da Serie A
-
Manchester United fica em vantagem duas vezes, mas cede empate na visita ao Bournemouth (2-2)
-
Villarreal vence Real Sociedad (3-1) e sobe provisoriamente ao 3º lugar no Espanhol
-
Trump prevê 'reduzir' operações militares contra o Irã
-
Venda de maconha a turistas, uma 'mudança possível' no Uruguai
-
RB Leipzig goleia Hoffenheim (5-0) e assume 3º lugar no Alemão
-
PIB da Argentina cresceu 4,4% em 2025
-
Troféu da Copa do Mundo visita Chichén Itzá, berço do jogo de bola maia
-
Três homens são presos na França por suspeita de abuso sexual em escolas
-
Guerra ameaça protagonismo do Golfo no mapa esportivo global
-
Presidente colombiano é investigado nos EUA por suposta ligação com narcotraficantes
-
Jonathan Wheatley deixa chefia da Audi F1 e pode se transferir para Aston Martin
-
Khamenei afirma que Irã desferiu 'golpe fulminante' no inimigo
-
Lesionado, Mohamed Salah vai desfalcar Liverpool e Egito
-
Joan García está entre as novidades na lista de convocados da Espanha para amistosos de março
-
Ex-ministro da Segurança da Costa Rica acusado de narcotráfico é extraditado para os EUA
-
Argentina vai enfrentar Mauritânia em amistoso em Buenos Aires no dia 27 de março
-
Líder supremo Mojtaba Khamenei afirma que Irã desferiu 'golpe fulminante' no inimigo
-
Ernesto Valverde deixará cargo de técnico do Athletic Bilbao no final da temporada
-
Jihadista francês é condenado à prisão perpétua pelo genocídio de yazidis
-
Governo dos EUA processa Harvard por permitir o 'antissemitismo'
-
Fracassam novas investigações no caso contra chileno Zepeda por homicídio na França
-
Nadador australiano McEvoy bate recorde mundial nos 50m livre, que pertencia a César Cielo
-
Tuchel surpreende com lista de 35 convocados para amistosos da Inglaterra contra Uruguai e Japão
-
Lesionado, Alisson vai desfalcar seleção brasileira em amistosos contra França e Croácia
-
Julgamento de ex-líder do Sinn Féin, Gerry Adams, termina após acordo com vítimas do IRA
-
Bolsonaro segue na UTI após uma semana internado
-
Ator Chuck Norris morre aos 86 anos
-
Retorno do grupo sul-coreano BTS relembra o lado obscuro do K-Pop
-
Presidente da Conmebol diz que Argentina é bicampeã da Finalíssima
-
Cristiano Ronaldo vai desfalcar Portugal nos amistosos contra México e EUA
-
BTS lança novo álbum antes de seu tão aguardado retorno aos palcos
IA aprende a mentir, manipular e ameaçar seus criadores
Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.
Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.
Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.
Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.
Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.
O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).
Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.
Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.
"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".
Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.
Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.
Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).
As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.
Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.
Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.
- A IA no banco dos réus? -
"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.
Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.
A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.
"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".
Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.
As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.
Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".
E.Schubert--BTB