Chat GPT peut-il mourir de maladie neurodégénérative ?
Le magazine Nature publiait en juillet dernier un article passionnant sur ce que l’on pourrait appeler les « effets pervers du cannibalisme sur les IA ».
Six chercheurs (issus des meilleurs laboratoires de recherche en IA) observaient récemment que plus un modèle de LLM (une IA du même type que ChatGPT) est nourri par des informations créées par d’autres IA, plus elle devient imprécise et s’éloigne de la réalité.
Le « cannibalisme » entraînerait inévitablement une dégradation du modèle.
Pourquoi ?
Lorsque des modèles sont formés sur des données générées par d’autres IA, au fil des générations, ils commencent à perdre des informations essentielles, notamment les événements rares ou peu probables.
Le modèle produit alors une approximation de la réalité, où par construction seuls les événements les plus probables et les moins singuliers sont retenus.
En d’autres termes, il voit flou.
« Après neuf générations, le texte produit contient des répétitions absurdes et des erreurs factuelles », constatent les chercheurs.
C’est finalement un peu comme les tomates. Si l’on ne les sélectionne que pour leur imputrescibilité et leur aspect géométrique, on obtient de beaux fruits rubicons… mais aqueux et sans saveur.
Pour les auteurs de l’article le remède est en tout cas sans appel, les LLM ont besoin de données humaines pour rester pertinents : « accéder à la distribution originale des données est crucial… les données générées par l’homme seront de plus en plus précieuses. »
Le journaliste du New York Times Aatish Bhatia a réitéré cette expérience à partir d’une reproduction de lettres manuscrites.
Le résultat est éloquent : après 30 générations, l’IA n’y voit plus rien.
Ce qui inquiète Aatish Bhatia, c’est qu’il soupçonne qu’en l’absence de « méthodes infaillibles pour détecter les contenu générés par les IA, beaucoup passeront inaperçus ». Et nourriront donc inévitablement ce phénomène de cannibalisme.
Le problème s’aggrave quand on songe à la quantité de textes publiés en ligne : « Sam Altman, directeur général d’OpenAI, confiait en février que l’entreprise générait environ 100 milliards de mots par jour. Soit l’équivalent d’un million de romans, dont une part inconnue se retrouve sur Internet. »
Pour qui a observé le fonctionnement des grandes organisations, ce risque de déperdition des informations cruciales n’est pas neuf. Il peut toucher des grandes entreprises et des administrations, où d’autres mécanismes entraînent une rétention de l’information pertinente.
Dans le cas des LLM, comment y remédier ? Où est-ce que les prochains modèles trouveront des sources d’apprentissage qui ne seront pas « empoisonnés » par d’autres IA ?
L’article d’Ilia Shumailov and co dans Nature :
https://www.nature.com/articles/s41586-024-07566-y
L’article d’Aatish Bhatia :
https://www.nytimes.com/interactive/2024/08/26/upshot/ai-synthetic-data.html
Le tweet de Sam Altman sur X :
https://x.com/sama/status/1756089361609981993?lang=en