Un lecteur anonyme cite un rapport de TechCrunch : Dans un effort pour décoller les couches de LLM, OpenAI est développement un outil pour identifier automatiquement quelles parties d’un LLM sont responsables de quels comportements. Les ingénieurs derrière lui soulignent qu’il n’en est qu’à ses débuts, mais le code pour l’exécuter est disponible en open source sur GitHub depuis ce matin. “Nous essayons de [develop ways to] anticiper quels seront les problèmes avec un système d’IA », a déclaré William Saunders, responsable de l’équipe d’interprétabilité chez OpenAI, à TechCrunch lors d’un entretien téléphonique. « Nous voulons vraiment pouvoir savoir que nous pouvons faire confiance à ce que fait le modèle et à la réponse qu’il produit. »
À cette fin, l’outil d’OpenAI utilise un modèle de langage (ironiquement) pour comprendre les fonctions des composants d’autres LLM plus simples sur le plan architectural, en particulier le propre GPT-2 d’OpenAI. Comment? Tout d’abord, un bref explicatif sur les LLM pour le contexte. Comme le cerveau, ils sont constitués de “neurones”, qui observent un schéma spécifique dans le texte pour influencer ce que le modèle global “dit” ensuite. Par exemple, étant donné une invite sur les super-héros (par exemple “Quels super-héros ont les super-pouvoirs les plus utiles ?”), un “neurone de super-héros Marvel” pourrait augmenter la probabilité que le modèle nomme des super-héros spécifiques des films Marvel. L’outil d’OpenAI exploite cette configuration pour décomposer les modèles en leurs éléments individuels. Tout d’abord, l’outil exécute des séquences de texte dans le modèle en cours d’évaluation et attend les cas où un neurone particulier “s’active” fréquemment. Ensuite, il “montre” GPT-4, le dernier modèle d’IA générant du texte d’OpenAI, ces neurones hautement actifs et GPT-4 génère une explication. Pour déterminer la précision de l’explication, l’outil fournit à GPT-4 des séquences de texte et lui fait prédire ou simuler le comportement du neurone. Il compare ensuite le comportement du neurone simulé avec le comportement du neurone réel.
“En utilisant cette méthodologie, nous pouvons fondamentalement, pour chaque neurone, proposer une sorte d’explication préliminaire en langage naturel de ce qu’il fait et également avoir un score indiquant dans quelle mesure cette explication correspond au comportement réel”, Jeff Wu, qui dirige l’équipe d’alignement évolutif d’OpenAI, a déclaré. “Nous utilisons GPT-4 dans le cadre du processus pour produire des explications sur ce qu’un neurone recherche, puis évaluer dans quelle mesure ces explications correspondent à la réalité de ce qu’il fait.” Les chercheurs ont pu générer des explications pour les 307 200 neurones de GPT-2, qu’ils ont compilés dans un ensemble de données qui a été publié avec le code de l’outil. “La plupart des explications obtiennent des résultats assez médiocres ou n’expliquent pas grand-chose du comportement du neurone réel”, a déclaré Wu. “Beaucoup de neurones, par exemple, sont actifs d’une manière où il est très difficile de dire ce qui se passe – comme ils s’activent sur cinq ou six choses différentes, mais il n’y a pas de schéma discernable. Parfois, il y a un schéma discernable, mais GPT-4 est incapable de le trouver.”
“Nous espérons que cela ouvrira une voie prometteuse pour aborder l’interprétabilité de manière automatisée sur laquelle d’autres pourront s’appuyer et contribuer”, a déclaré Wu. “L’espoir est que nous ayons vraiment de bonnes explications non seulement sur ce à quoi les neurones réagissent, mais également sur le comportement de ces modèles – quels types de circuits ils calculent et comment certains neurones affectent d’autres neurones.”
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]
[newpostarosa]