-
Llegan a Cuba dos veleros con ayuda humanitaria tras ser relocalizados
-
La policía francesa frustra un atentado con explosivos frente al Bank of America en París
-
México denuncia la muerte de otro migrante en EEUU bajo custodia del ICE
-
Líbano denuncia la muerte de tres periodistas libaneses en un ataque israelí
-
El vicepresidente de EEUU dice estar "obsesionado" con los ovnis
-
Víctor Muñoz, del fallo en un Clásico a marcar en su debut con La Roja
-
Ucrania firma acuerdos de cooperación en defensa con Emiratos y Catar
-
Los rebeldes hutíes de Yemen entran en la guerra con un ataque a Israel
-
Los republicanos de la Cámara rechazan el plan del Senado para poner fin al caos en los aeropuertos de EEUU
-
Detienen al ex primer ministro de Nepal en el caso por la represión de las protestas de la Generación Z
-
EEUU flexibiliza inversiones para la explotación de minerales en Venezuela
-
Manifestantes anti-Trump convocan protestas para este sábado en EEUU
-
Bank of America acepta pagar 72,5 millones de dólares para cerrar un proceso civil vinculado a Epstein
-
Republicanos de la Cámara rechazan plan del Senado para poner fin a caos en aeropuertos de EEUU
-
Zelenski anuncia un acuerdo entre Ucrania y Emiratos para cooperar en defensa
-
Nestlé denuncia el robo de 12 toneladas de chocolates KitKat en Europa
-
Ataques rusos matan a 4 personas en Ucrania, dañan un puerto y una maternidad
-
Más de 20 migrantes mueren cerca de la costa de Grecia tras seis días a la deriva
-
El Real Zaragoza, de asombrar a Europa a verse con un pie en el precipicio
-
El papa León XIV denuncia en Mónaco los "abismos entre pobres y ricos"
-
Varios ataques dejan tres muertos en Ucrania y un niño fallecido en Rusia, según autoridades locales
-
Los hutíes de Yemen lanzan su primer ataque contra Israel en la guerra de Oriente Medio
-
Mónaco recibe al papa León XIV para una inusual visita
-
Kimi Antonelli firma la pole position en Suzuka, nuevo doblete de Mercedes
-
"Cuba es la siguiente", afirma Trump
-
Indonesia prohíbe el uso de redes sociales a menores de 16 años
-
Mónaco recibe al papa León XIV para una visita relámpago y sorpresiva
-
Indonesia veta las redes sociales a 70 millones de menores de 16 años
-
Tiger Woods, arrestado por conducir bajo efecto de sustancias tras accidente en Florida
-
Guerra en Oriente Medio entra en su segundo mes, aunque EEUU estima que acabará en dos semanas
-
Estados Unidos espera próximas reuniones con Irán
-
Oyarzabal guía a España a triunfo convincente en amistoso ante Serbia
-
Las bolsas occidentales temen los efectos de una guerra prolongada
-
Activista propalestina en EEUU afirma que el FBI frustró un complot para asesinarla
-
"Estamos listos": los astronautas llegan al sitio de lanzamiento para misión a la Luna
-
Jair Bolsonaro, en prisión domiciliaria tras salir del hospital
-
Anne Hidalgo celebra un París que "avanzó", en su despedida como alcaldesa
-
Un cachalote es filmado dando a luz, con un poco de ayuda de su clan
-
Argentina evita pagar 16.100 millones de dólares tras una victoria judicial en Nueva York
-
El videasta del documental "Mr Nobody contra Putin" es declarado "agente del extranjero"
-
El desempleo en Brasil sube levemente, pero marca un mínimo para el período
-
Sony aumenta el precio de sus consolas PlayStation en el mundo
-
Grave lesión de rodilla de Joaquín Panichelli, delantero de Argentina y del Estrasburgo
-
El gigante chino de vehículos eléctricos BYD pierde un 19% de beneficio en 2025
-
Bolsonaro sale del hospital y va a su casa a cumplir prisión domiciliaria
-
La guerra "arrancó una parte de mí": iraníes relatan su vida en medio de la guerra
-
China abre investigaciones en respuesta a acciones comerciales de Estados Unidos
-
Italia investiga a LVMH por promocionar cosméticos entre niños y adolescentes
-
JD Vance y Marco Rubio emergen como posibles herederos republicanos en la era post-Trump
-
Francia redujo su déficit público al 5,1% en 2025
La IA aprende a mentir, manipular y amenazar a sus creadores
Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.
Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.
Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.
No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.
Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.
o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).
Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.
De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.
"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".
Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.
Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.
Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).
Las regulaciones actuales no están diseñadas para estos nuevos problemas.
En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.
En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.
- ¿Se sentará la IA en el banquillo? -
"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.
Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.
Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.
"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".
Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.
Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.
Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".
H.Seidel--BTB