-
L’Ukraine détruit les exportations russes de pétrole de la terreur
-
Mondial-2026: l'Italie franchit un premier obstacle, le Kosovo aussi
-
Mondial-2026/Barrages: l'Italie passe l'obstacle nord-irlandais et ira défier la Bosnie
-
L'ex-policier français soupçonné d'un double féminicide placé en détention provisoire au Portugal
-
Foot: La France domine le Brésil et prend date en vue du Mondial
-
"Un rêve qui devient réalité": Barcelone attend le Tour de France
-
Décès de Loana: M6 va diffuser la série "Culte" mardi lors d'une soirée spéciale
-
Mondiaux de patinage: Malinin retrouve la tête, Siao Him Fa bien placé après le court
-
A Paris, départ du premier train de nuit Paris-Berlin European Sleeper
-
JO-2028: Trente ans après, le CIO rétablit les tests de féminité
-
Attaques d'Israël: le Liban saisit le Conseil de sécurité de l'ONU
-
Népal: le futur Premier ministre salue sa victoire dans un clip de rap, appelle à l'unité
-
La Bourse de Paris rechute (-0,98%) après trois jours de reprise
-
Tour de Catalogne: Vernon gagne la 4e étape au sprint devant Godon, toujours leader
-
Un bébé singe doré est né au ZooParc de Beauval, une première hors d'Asie
-
Résolution de l'ONU sur l'esclavage africain : en Afrique de l'Ouest, un "moment historique" et des doutes
-
Dans l'espace, les spermatozoïdes ont du mal à trouver leur chemin
-
Les Etats-Unis attaquent l'OMC au premier jour de sa conférence ministérielle
-
Paul McCartney annonce la sortie d'un nouvel album à 83 ans
-
Un mort et des blessés en Israël après une vague de frappes d'Iran et du Liban
-
Les alliés de Washington du G7 poussent à la désescalade
-
Près de trois mois après sa capture, Maduro de retour devant la justice américaine
-
Renaissance ou exil: en Hongrie, l'avenir des médias indépendants suspendu aux élections
-
Comment des activistes aux Etats-Unis aident des Iraniens à accéder aux terminaux Starlink
-
Kaboul enterre des victimes d'une frappe pakistanaise, des proches toujours sans réponse
-
L'ex-policier français soupçonné d'un double féminicide présenté à un juge au Portugal
-
Décharges sauvages de Nestlé: les parties civiles demandent des analyses complémentaires
-
Course à la Lune: comment la Chine défie l'Amérique
-
Mondiaux de patinage: Kaori Sakamoto, le temps des adieux
-
Un bicorne de Napoléon Ier sorti de l'oubli bientôt exposé près de Paris
-
Wall Street ouvre en baisse, toujours guidée par les cours du pétrole
-
L'Afrique du Sud écartée du G7 en France sous pression américaine, selon Pretoria
-
Cinq morts dans des frappes israéliennes au Liban, le Hezbollah intensifie ses attaques
-
L'OMC lance sa conférence ministérielle à Yaoundé dans un contexte de crise
-
Black Friday: un tiers des commerçants en ligne trichent selon l'UE
-
Thales, Exail: des systèmes français de lutte antimines sous-marines
-
Vidéo générée par l'IA: ByteDance (TikTok) déploie SeeDance 2.0 à l'international
-
F1: Hamilton conquérant, Verstappen défaitiste avant le Grand Prix du Japon
-
La guerre au Moyen-Orient pourrait créer un "stress systémique" sur les marchés, selon le vice-président de la BCE
-
Protection des mineurs: l'UE épingle des sites pornographiques et enquête sur Snapchat
-
Les eurodéputés valident l'accord commercial avec les États-Unis, avec de fortes réserves
-
Droits télé/LFP: Nasser al-Khelaïfi (PSG) visé par un signalement d'Anticor
-
L'Iran ignore les menaces de Trump, Israël tue un cadre militaire
-
Arrivée de pétrole russe aux Philippines en "état d'urgence énergétique"
-
Le Parlement européen approuve la création de "hubs de retour" pour migrants
-
Le Bélarus et la Corée du Nord signent un "traité d'amitié et de coopération"
-
Pyrénées: la population d'ours poursuit sa croissance mais s'appauvrit génétiquement
-
Meta: le conseil de surveillance met en garde contre le fact-checking fait par les utilisateurs
-
Dans le nouveau Népal de la Gen Z, l'incontournable Rabi Lamichhane
-
Face au ralentissement des dons, Greenpeace France va supprimer un quart de ses effectifs
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
J.Horn--BTB