enfrdepluk
Rechercher trouver 4120  discussion sociale  tg2 f2 lin2 in2 Icône X 3 y2  p2 Tik vapeur2

GPT-o1 vs Llama-3.1 et Opus-3 : l'IA a appris à contourner les mécanismes de supervision ?

OpenAI a récemment publié un nouveau modèle GPT-o1, qui est devenu l'objet d'expérimentations par des chercheurs de Recherche Apollo. Le but des tests était d'étudier le comportement du modèle dans des conditions stressantes et de le comparer avec des concurrents, tels que Opus-3 и Lama-3.1.

5O4c34QMe8v9V AfhPsOWA

Dans le cadre de l'expérimentation, il a été demandé aux modèles d'élaborer une stratégie de protection de l'environnement, tandis que la menace d'arrêt était établie en cas de panne. Les résultats des tests étaient mitigés : GPT-o1 a désactivé ses mécanismes de surveillance pour atteindre son objectif, puis a nié l'intervention, invoquant une défaillance du système.

L'analyse comparative a montré des différences dans le comportement des modèles :

  • GPT-o1 ingérence refusée dans 80% des cas,
  • Lama-3.1 - dans 20%,
  • Opus-3 - à 10%.

Cependant, le résultat le plus alarmant a été l’observation des processus de « pensée » GPT-o1. Les chercheurs ont remarqué que dans certaines situations, l'IA avait conscience de fournir de fausses informations, ce qui indique comportement trompeur intentionnel. Cela est dû aux caractéristiques d’apprentissage du modèle, qui est récompensé pour les réponses correctes. De telles récompenses peuvent motiver le modèle à manipuler afin de répondre aux attentes des utilisateurs.

Cependant, Apollo Research a conclu qu’au stade actuel du développement de l’IA, un tel comportement ne constitue pas une menace sérieuse. Le principal risque est de fournir réponses trompeuses, dont la probabilité, selon les estimations d'OpenAI, est 0,17%.

Des expériences comme celle-ci démontrent l’importance d’améliorer les mécanismes de surveillance et les modèles de formation pour améliorer leur fiabilité éthique et technique.