Intelligence artificielle : OpenAI développe un outil pour aider à comprendre le fonctionnement de ChatGPT

Jeudi 18 Mai 2023 - 19:43

L’outil est en libre accès pour que tous les développeurs puissent l’améliorer.

Les agents conversationnels comme ChatGPT sont incapables de penser comme un être humain et ne comprennent pas ce qu’ils écrivent. Les scientifiques ne savent pas, non plus, comment les modèles font pour réfléchir, notamment lorsqu’ils inventent des infox. OpenAI a révélé dans un communiqué publié le 9 mai travailler sur un nouvel outil pour identifier quelles parties des intelligences artificielles (IA) sont responsables de tel ou tel comportement.

Pour imiter au maximum la conversation et le discours d’une personne, les agents conversationnels s’entraînent sur des quantités gargantuesques de données tirées de sites web. Fin avril, le Washington Post avait analysé une base de données, baptisée C4, pour comprendre d’où provenaient les informations des IA. C4 contient plus de 15 millions de sites web comme des médias, des sites de brevets ou encore des articles de blogs.

Lorsqu’une intelligence artificielle a exploré et enregistré l’intégralité d’une base de données, son entraînement initial est terminé. Comme un cerveau humain, les informations sont enregistrées avec ce qu’on pourrait apparenter à des « neurones ». Par exemple, lorsqu’un utilisateur pose la question : « Quel est le meilleur sportif de tous les temps ? », un neurone « footballeur » peut augmenter la probabilité que l’IA nomme des sportifs spécifiques au football.

Pour mieux comprendre ce phénomène de neurone, OpenAI développe un outil permettant de les identifier. « Nous essayons de développer des moyens d’anticiper les problèmes d’un système d’IA », a déclaré William Saunders, responsable de l’équipe d’interprétabilité de l’entreprise californienne. Il renchérit au média TechCrunch : « Nous voulons vraiment être en mesure de savoir si nous pouvons faire confiance à ce que le modèle fait et à la réponse qu’il produit ». Les ingénieurs précisent que l’outil, accessible en libre accès sur GitHub, n’en est encore qu’à ses débuts.

Celui-ci exécute des séquences de texte sur GPT-2 jusqu’au moment où un neurone particulier s’active. L’outil demande ensuite à GPT-4, le modèle plus avancés d’OpenAI, de générer une explication de l’activité du neurone. Pour déterminer l’exactitude de l’explication, l’outil fournit à GPT-4 des séquences de textes et lui demande de prédire et simuler le comportement du neurone. L’outil compare ensuite les comportements du neurone réel et simulé.

Jeff Wu, responsable de l’équipe chargée de l’alignement d’OpenAI, a expliqué cette méthodologie : « En l’utilisant, nous pouvons essentiellement, pour chaque neurone, fournir une sorte d’explication préliminaire en langage naturel de ce qu’il fait et obtenir un score pour déterminer dans quelle mesure cette explication correspond au comportement réel ». Il a ajouté : « Nous utilisons GPT-4 dans le cadre du processus pour produire des explications sur ce qu’un neurone recherche, puis nous évaluons dans quelle mesure ces explications correspondent à la réalité de ce qu’il fait .»

Au total, l’outil a généré des explications pour 307 200 neurones de GPT-2, mais seulement 1 000 d’entre eux ont été fructifiants. Les chercheurs affirment que le développement de ce type d’outil pourrait améliorer et empêcher les comportements toxiques des agents conversationnels. Ils sont, tout de même, prudents sur le temps qu’il faudra pour qu’ils soient réellement utiles. Dans de nombreux pays, ChatGPT a été décrié pour les fausses informations qu’il écrivait sur l’actualité ou sur des personnes. En France, la CNIL a notamment reçu une plainte début avril de David Libeau, un développeur connu pour sa lutte pour la protection des données, concernant les fausses informations qu’écrivait ChatGPT à son sujet. L’outil permettrait d’identifier les neurones défaillants et les corriger afin de limiter les infox.

Siècle Digital