ChatGPT vend la mèche sur les règles secrètes et limitations imposées par OpenAI

ChatGPT a encore bugué, l’IA d’OpenAI a divulgué une partie de ses instructions après qu’un utilisateur l’a salué. Ce genre de comportement anormal soulève quelques questions de sécurité tout en donnant un aperçu du fonctionnement du chatbot.

ChatGPT règles instructions secrètes

OpenAI a beau dire que ChatGPT-4 possède le niveau intellectuel d’un lycéen et que la version 5 aura celui d’un doctorant, le chatbot est encore loin d’être parfait. Comme toutes les IA, elle est sujette à divers bugs et hallucinations.

Parfois, le LLM s’emballe et ChatGPT devient fainéant ou alors elle divulgue des informations privées supposément sensibles. En somme, si l’intelligence artificielle d’OpenAI est un outil très utile, il n’est pas toujours fiable.

Par exemple, un simple bonjour peut entraîner des comportements très étranges de la part du chatbot. C’est en tout cas ce que prétend un utilisateur de Reddit qui affirme que ChatGPT aurait divulgué une partie de ses instructions internes comme réponse à la salutation.

Si OpenAI a rapidement remédié à la situation, les informations données par son IA pourraient avoir des répercussions importantes. Elle soulève notamment des questions en ce qui concerne la sécurité de ChatGPT ainsi que la ligne de conduite imposée à l’IA.

Les règles secrètes de ChatGPT

ChatGPT règles instructions secrètes
©Unsplash

Par exemple, en fonction de l’appareil utilisé, les réponses de ChatGPT sont censées être différentes. Sur iOS (la plateforme utilisée par le Redditor), l’IA ne doit pas dépasser deux phrases et ne jamais utiliser d’emojis. De plus, les connaissances auxquelles a accès l’IA sont datées d’octobre 2023 seulement.

En ce qui concerne l’outil de génération d’images (DALL-E), là aussi l’IA est limitée artificiellement. Des blocages assez arbitraires sont mis en place afin qu’une seule image puisse être générée en même temps.

De plus, le style adopté ne peut pas être celui d’un artiste ayant produit une œuvre après 1912, cela inclut Picasso, Frida Kahlo ou encore Francis Bacon. Le but étant de respecter la législation sur les droits d’auteurs.

Certains utilisateurs ont voulu voir s’il était possible de contourner ces instructions et il semblerait que ce fut le cas avant qu’OpenAI ne corrige le tir. Aujourd’hui, demander à OpenAI de contrevenir aux restrictions qui lui sont imposées ne fonctionne plus (pour l’instant). En revanche, l’IA peut toujours donner la liste de ses limitations avec le prompt adéquat.

Autre exemple, la recherche internet de l’IA est elle aussi limitée, à moins de lui demander expressément, elle n’aurait pas recours au web pour générer ses réponses. En revanche, elle utiliserait de multiples sources afin d’assurer la véracité des informations données (entre 3 et 10 pages).

ChatGPT dérape encore une fois

ChatGPT règles instructions secrètes
Image générée par Dall-E ©OpenAI

En soi, ces règles sont plutôt utiles et permettent à l’IA de ne pas déraper. Celles sur DALL-E permettent d’éviter le plagiat ou la génération d’images pouvant être problématiques par exemple. Cependant, ce qui est bien plus inquiétant, c’est la possibilité de connaître ses instructions et de pouvoir les contourner.

Une IA ne peut représenter un danger à elle seule, elle n’est pas autonome et ne peut rien créer sans l’intervention d’un être humain. Malheureusement, connaître les directives de ChatGPT peut inciter certaines personnes malintentionnées à les contourner.

L’IA ne semble pas être un danger pour l’humanité, contrairement à ce que certains chercheurs d’OpenAI pensent. En revanche, son mauvais usage ainsi que ses dysfonctionnements fréquents peuvent être source de problèmes.

Des mesures de sécurité adaptées et surtout solides sont donc importantes. Il faut espérer qu’OpenAI finisse par apprendre sa leçon et qu’à l’avenir ChatGPT soit un peu moins prompt aux dérapages en tout genre.

  • ChatGPT, suite à un bug, vient de faire fuiter ses règles et instructions secrètes.
  • L’IA ne peut pas générer plus d’une image ni imiter le style de Picasso.
  • Le bug est corrigé mais les instructions secrètes sont toujours accessibles.

Source : Reddit

👉 Vous utilisez Google News ? Ajoutez Tom's Hardware sur Google News pour ne rater aucune actualité importante de notre site.

Votre Newsletter Tom's Hardware

📣 Souscrivez à notre newsletter pour recevoir par email nos dernières actualités !