-
Sur les plages de Kiev en pleine vague de chaleur, oublier la guerre
-
Onze librairies Furet du Nord et Decitre doivent fermer, jusqu'à 163 postes touchés
-
Au Mondial, des stars sur le terrain et en tribunes
-
Nombre record de "nouveaux millionnaires" dans le monde en 2025, selon UBS
-
Nombre record de "nouveaux millionaires" dans le monde en 2025, selon UBS
-
Papouasie-Nouvelle-Guinée: un projet minier fait craindre un désastre environnemental
-
Japon : adoption d'un projet de loi interdisant la profanation du drapeau national
-
France: "Sans doute un nouvel épisode caniculaire à partir de ce week-end", annonce Météo-France à l'AFP
-
Mondial-2026: le foot se joue à 11 et désormais l'Allemagne perd à la fin
-
"Promesse tenue": les produits américains détaxés à partir de mercredi dans l'UE
-
Royaume-Uni: sur le départ, Starmer muscle le budget militaire pour moderniser l'armée
-
Petits colis: la France change de stratégie et suspend sa taxe au nom de l'harmonisation européenne
-
Emissaires américains et iraniens au Qatar après des frappes: ce que l'on sait
-
Des milliers de Sud-Africains dans la rue pour demander le départ des sans-papiers
-
IA : les centres de données émettent bien plus de CO2 qu'estimé, selon Allianz Trade
-
Plus d'une centaine de plaintes contre Epil House, chaîne d'épilation au laser
-
Canicule: près de 16.000 clients restent privés d'électricité, selon Enedis
-
L'OFB dévoile une plateforme pour signaler les comportements inappropriés de ses agents
-
Monaco, royaume du luxe et terre d'accueil des exilés fiscaux
-
La loi visant à relancer les investissements dans l'hydroélectricité parue au JO
-
France: l'assagissement des prix de l'énergie soulage l'inflation en juin
-
TotalEnergies "concentre" le plafonnement des carburants dans les stations rurales
-
Indonésie: un ex-champion de la tech devenu ministre condamné à 10 ans de prison pour corruption
-
Espagne: plus d'un million de demandes de régularisation ont été déposées par des sans-papiers
-
Mondial-2026: le Maroc en liesse après la qualification des Lions de l'Atlas pour les 8es
-
La Bourse de Paris montre un appétit mesuré pour le risque
-
Le pape lance un dernier appel à la Fraternité Saint-Pie X pour éviter un schisme
-
L'enquête visant Adriana Karembeu, pour soustraction aux obligations parentales, classée sans suite
-
Tour de France: Pogacar-Vingegaard, rivalité exclusive
-
Des élus locaux protestent contre le projet gouvernemental de consigne des bouteilles en plastique
-
Chasse à l'homme après l'attaque qui a touché un homme d'affaires d'origine ukrainienne à Monaco
-
EDF: action en justice des salariés pour connaître les rémunérations de ses dirigeants
-
Le taux du Livret A "va augmenter", annonce Roland Lescure
-
Nette augmentation des tarifs bancaires cette année
-
En Inde, le très attendu projet de train à grande vitesse accélère enfin
-
L'Île-de-France prépare l'ouverture à la concurrence de quatre lignes de train et sept de tramway
-
Des réunions entre Téhéran et Washington attendues au Qatar
-
Chasse à l'homme après l'attaque qui a touché un oligarque ukrainien à Monaco
-
Afrique du Sud: cinq choses à savoir sur les manifestations antimigrants
-
Séisme au Venezuela: une morgue improvisée sur le port de la Guaira
-
Mardi à risque en Afrique du Sud en pleine campagne contre l'immigration
-
Trop de chômeurs et trop de postes vacants: le casse-tête du marché du travail allemand
-
La Nasa à la rescousse d'un de ses télescopes
-
France: la consommation des ménages rebondit de 0,5% en mai, portée par l'énergie
-
Logement neuf : rebond des permis de construire accordés en mai
-
Comment va fonctionner la taxe européenne sur les petits colis ?
-
"Une torture": les Turcs dénoncent une "crise des visas" Schengen
-
France: l'inflation revient en juin à 1,8% sur un an après 2,4% en mai
-
À Oxford, le Schwarzman Centre symbole de l'essor des maxi-dons privés aux universités britanniques
-
Comment l'Otan compte s'y prendre pour rendre Trump heureux à Ankara
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
J.Horn--BTB