-
De Miami a Guatemala: el viaje de niños separados de familiares por las deportaciones
-
El Levante-Villarreal se aplaza por riesgo de intensas lluvias
-
Zelenski ratifica su predisposición al diálogo para un alto el fuego
-
El partido prodemocracia más antiguo de Hong Kong anuncia su disolución
-
La Real Sociedad destituye a Sergio Francisco como entrenador
-
Dos personas muertas y varios heridos graves por un tiroteo en una universidad de EEUU
-
Chile elige presidente con la ultraderecha como favorita por primera vez desde la dictadura
-
Al menos cuatro muertos por enfrentamiento entre comunidades indígenas en Guatemala
-
Dos detenidos tras unos disparos en una conocida playa de Sídney
-
Rearme alemán enfrenta a fabricantes tradicionales y a empresas emergentes
-
Dos personas muertas y varios heridos graves por tiroteo en universidad de EEUU
-
Bielorrusia libera al nobel de la paz Ales Bialiatski y a la líder opositora Kolesnikova
-
Políticas migratorias más selectivas y fronteras menos permeables en Europa
-
Fallece el actor argentino Héctor Alterio a los 96 años
-
Bielorrusia libera a la opositora Maria Kolesnikova y al nobel de la paz Ales Bialiatski
-
¿Por qué la posible salida a bolsa de SpaceX da tanto que hablar?
-
EEUU revela detalles de la orden de incautación de un petrolero frente a Venezuela
-
La ola de criminalidad propulsa a un ultraderechista a la presidencia de Chile
-
España desarticula una banda que transportaba hachís en helicóptero desde Marruecos
-
Un emisario de EEUU se reunirá con Zelenski y dirigentes europeos en Berlín este fin de semana
-
Corea del Norte dice que perdió a nueve soldados en operaciones de desminado en Rusia
-
EEUU levanta las sanciones contra un juez de la corte suprema brasileña
-
"Queremos vivir en paz": el grito de Ricardo Adé a las pandillas de Haití
-
La odisea de María Corina Machado para escapar de Venezuela
-
Los Pistons aplastan a los Hawks y amplían su ventaja en la Conferencia Este de la NBA
-
Rusia afirma que bombardeó instalaciones ucranianas con misiles hipersónicos
-
La visita de Messi a un estadio de Calcuta concluye con disturbios
-
Las inundaciones en Indonesia dejaron más de 1.000 muertos
-
Un emisario de EEUU se reunirá con Zelenski y líderes europeos en Berlín este fin de semana
-
La junta militar birmana niega haber matado a civiles en bombardeo a hospital
-
Las mujeres avanzan a grandes pasos en el arte de la sumillería
-
Las hostilidades entre Tailandia y Camboya continúan pese a la tregua anunciada por Trump
-
Carlos III anuncia la "buena noticia" de que su tratamiento contra el cáncer se reducirá en 2026
-
Demócratas publican fotos de Epstein con Trump, Clinton y Woody Allen
-
Alemania acusa a Rusia de ciberataques contra seguridad aérea y elecciones
-
Los casos de prostitución y acoso sexual ponen en peligro el apoyo femenino al Partido Socialista español
-
Jara vs Kast, dos visiones de la mujer y de la sociedad en Chile
-
La líder opositora Machado dice que temió por su vida en su salida de Venezuela
-
El rey Carlos III hablará de su experiencia con el cáncer en mensaje televisado
-
Ucrania reivindica haber reconquistado dos localidades en el noreste del país
-
Alemania acusa a Rusia de ciberataques para perturbar la seguridad aérea y las elecciones
-
El expresidente iraquí Barham Salih dirigirá la agencia de la ONU para los refugiados
-
El Banco Central ruso anuncia una demanda contra Euroclear por los activos congelados
-
Messi desvelará una estatua de 21 metros de sí mismo en India
-
Las inundaciones en Indonesia amenazan unos orangutanes al borde de la extinción
-
La economía británica se contrae nuevamente un 0,1% en octubre
-
España abre las puertas al regreso de los hijos y nietos de sus exiliados
-
Drones ucranianos causan siete heridos en un edificio residencial de Rusia
-
El magnate prodemocracia hongkonés Jimmy Lai recibirá el veredicto de su juicio el lunes
-
EEUU lanza un pacto sobre cadenas de suministro de la IA para competir con China
La IA aprende a mentir, manipular y amenazar a sus creadores
Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.
Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.
Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.
No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.
Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.
o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).
Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.
De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.
"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".
Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.
Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.
Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).
Las regulaciones actuales no están diseñadas para estos nuevos problemas.
En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.
En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.
- ¿Se sentará la IA en el banquillo? -
"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.
Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.
Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.
"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".
Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.
Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.
Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".
H.Seidel--BTB