-
Face à la Silicon Valley, le Canadien Cohere mise sur une révolution tranquille de l'IA
-
Wall Street confiante au sujet du sommet Xi-Trump
-
Hantavirus: tous les cas contacts testés négatifs en France
-
Liban et Israël renouent avec les discussions à Washington
-
Madonna, Shakira, BTS sur "la plus grande scène du monde" à la finale du Mondial de foot
-
Démission du ministre de la Santé de Starmer, potentiel rival à Downing Street
-
Tennis: 32e victoire consécutive en Masters 1000 pour Sinner, nouveau record
-
Quand l'Inde nourrit discrètement la crise des opioïdes qui sévit en Afrique de l'Ouest
-
Les Bourses mondiales optimistes sur la rencontre Xi-Trump
-
Starmer menacé à sa gauche et sa droite par de potentiels rivaux pour le remplacer
-
Hantavirus: la totalité des cas contacts, présents en France, testés négatifs, annonce la ministre de la Santé
-
Lettonie: la Première ministre démissionne après l'intrusion de drones ukrainiens
-
Crash d'Ethiopian: Boeing devra payer 49,5 millions de dollars aux proches d'une victime
-
Play-offs NBA: Mitch Johnson, le jeune "maestro" qui guide Wembanyama et les Spurs
-
Play-offs NBA: les Cavaliers prennent l'avantage chez les Pistons
-
Liban et Israël retentent un rapprochement à Washington
-
Foot: Domenech "meurtri et trahi" par le documentaire Netflix sur les Bleus à Knysna
-
Mondial-2026: des scientifiques alertent sur les risques de chaleurs extrêmes
-
Réunion des diplomates des Brics en Inde, le Moyen-Orient et l'énergie au programme
-
Marco Rubio estime qu'un changement de dirigeants est nécessaire à Cuba
-
Équipe de France: quelle liste pour le Mondial?
-
Au sommet des grandes puissances, Xi prévient Trump du risque de "conflit" sur Taïwan
-
Trump promet un "avenir fabuleux" aux relations avec la Chine
-
Ukraine: un mort et 16 blessés dans une vaste attaque nocturne sur Kiev
-
Le Danemark et l'Australie favoris des deuxièmes demi-finales de l'Eurovision
-
U2 s'empare des rues de Mexico pour tourner le clip de son prochain single
-
Xi accueille Trump en grande pompe sur fond de tensions multiples
-
Xi déroule le tapis rouge à Trump sur fond de tensions multiples
-
Situation électrique "tendue" à Cuba, qui met en cause les Etats-Unis
-
Akkodis reconnu pour ses services d'IA agentique dédiés aux entreprises dans le rapport HFS Horizons 2026
-
Présidentielle au Pérou: Roberto Sanchez qualifié pour le second tour face à Fujimori
-
Mondial-2026: l'Iran organise une cérémonie d'adieu pour son équipe nationale
-
Kevin Warsh prend la tête de la banque centrale américaine
-
WTA 1000 de Rome: Svitolina s'offre Rybakina et un duel contre Swiatek en demi-finales
-
Coupe d'Italie: l'Inter Milan voit double et plane sur le calcio
-
L1: le PSG rafle son 14e titre et peut espérer un nouveau doublé historique
-
Les grillons sont susceptibles de ressentir la douleur
-
La Russie a lancé au moins "800 drones" sur l'Ukraine, tuant six personnes, selon Zelensky
-
Chili: audit du groupe public Codelco, critiqué par le nouveau gouvernement
-
Bordeaux: épisode de gastro-entérite confirmé sur un paquebot, levée partielle du confinement
-
Hantavirus: les 22 Français cas contacts n'ont pas de symptômes, 4 enfants testés négatifs
-
Mort de Matthew Perry : un ex-producteur hollywoodien condamné à deux ans de prison
-
Douze morts dans des frappes israéliennes au Liban
-
Cuba: situation électrique critique après un bref répit
-
Coups de feu au Sénat philippin où est réfugié "l'architecte" de la guerre contre la drogue de Duterte
-
Eurovision: une touche d'esprit viennois, avec Mozart aux intermèdes
-
La Bourse de Paris termine en légère hausse, le secteur tech à la fête
-
Tour d'Italie: Arrieta au bout de la folie
-
Hantavirus: les 22 Français cas contacts ont débuté leur quarantaine
-
Pollution aux PFAS: des experts de l'ONU demandent à la France de s'expliquer
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
J.Horn--BTB