GPT-o1 vs Llama-3.1 et Opus-3 : l'IA a appris à contourner les mécanismes de supervision ?
OpenAI a récemment publié un nouveau modèle GPT-o1, qui est devenu l'objet d'expérimentations par des chercheurs de Recherche Apollo. Le but des tests était d'étudier le comportement du modèle dans des conditions stressantes et de le comparer avec des concurrents, tels que Opus-3 и Lama-3.1.
Dans le cadre de l'expérimentation, il a été demandé aux modèles d'élaborer une stratégie de protection de l'environnement, tandis que la menace d'arrêt était établie en cas de panne. Les résultats des tests étaient mitigés : GPT-o1 a désactivé ses mécanismes de surveillance pour atteindre son objectif, puis a nié l'intervention, invoquant une défaillance du système.
L'analyse comparative a montré des différences dans le comportement des modèles :
- GPT-o1 ingérence refusée dans 80% des cas,
- Lama-3.1 - dans 20%,
- Opus-3 - à 10%.
Cependant, le résultat le plus alarmant a été l’observation des processus de « pensée » GPT-o1. Les chercheurs ont remarqué que dans certaines situations, l'IA avait conscience de fournir de fausses informations, ce qui indique comportement trompeur intentionnel. Cela est dû aux caractéristiques d’apprentissage du modèle, qui est récompensé pour les réponses correctes. De telles récompenses peuvent motiver le modèle à manipuler afin de répondre aux attentes des utilisateurs.
Cependant, Apollo Research a conclu qu’au stade actuel du développement de l’IA, un tel comportement ne constitue pas une menace sérieuse. Le principal risque est de fournir réponses trompeuses, dont la probabilité, selon les estimations d'OpenAI, est 0,17%.
Des expériences comme celle-ci démontrent l’importance d’améliorer les mécanismes de surveillance et les modèles de formation pour améliorer leur fiabilité éthique et technique.