RCJQuelles sources alimentent ChatGPT ?
RCJ S3E33 - Chronique Tech -
Quelles sources alimentent ChatGPT ?
OpenAI a lancé ChatGPT et est devenu le phénomène, la révolution qu’on connaît aujourd’hui. Plus de 200 millions d’utilisateurs ont envoyé au moins une requête vers cette intelligence artificielle. Un des points communs entre tous les utilisateurs est sûrement une question : comment ChatGPT sait-il tout cela et d’où viennent toutes ces informations ?
Les Large Language Models (LLM) sont d'impressionnants réseaux de neurones. Ce sont des modèles qui imitent le fonctionnement du cerveau humain pour traiter et comprendre le langage. Les réseaux de neurones sont structurés en couches, chaque couche détectant des motifs récurrents dans les données (des patterns en langage technique). Les neurones contiennent des paramètres qui sont ajustés au cours de l'entraînement pour améliorer les performances.
GPT 3,5, la version que tout le monde a découverte, rassemble plus de 145 milliards de paramètres, la version 4 plus 3 trillions. La prochaine visera une forme d’infini.
Pour regarder à l'intérieur de cette boîte noire, qu’est ChatGPT, c’est assez compliqué de décrypter les sources permettant d’arriver aux résultats qui s’affichent pour nous tous.
L'algorithme de ChatGPT analyse ces données d'entraînement pour comprendre la structure de la langue, la grammaire, le vocabulaire, les expressions idiomatiques, etc. Plus les données d'entraînement sont diverses et nombreuses, meilleurs seront les résultats.
En travaillant avec des chercheurs on a pu trouver ces premières sources.
Les trois sites les plus importants sont et de façon étonnante patents.google.com, qui contient le texte des brevets délivrés dans le monde entier ; wikipedia, l'encyclopédie en ligne que tout le monde connaît; et scribd, une bibliothèque de documents numériques accessible uniquement par abonnement. Dans cette liste de sources il y a des milliers de sites. Parmi les 100 premiers, au moins 27 sites sont identifiés comme des sites hébergeants de livres et supports piratés.
En plus des sites, ChatGPT utilise également des sources de connaissances pour trouver des informations. Ces sources de connaissances incluent des encyclopédies, des dictionnaires et des glossaires en ligne. Par exemple, chatgpt peut utiliser l'Encyclopédie Universalis pour trouver des informations sur des sujets plus spécialisés, ou encore le dictionnaire Larousse pour les définitions de mots.
De plus, ChatGPT a également accès à des bibliothèques numériques qui contiennent une vaste collection de livres électroniques sur une variété de sujets. Grâce à ces ressources, ChatGPT peut fournir des informations plus approfondies et complètes sur des sujets spécifiques, tels que l'histoire, la philosophie, la science ou la technologie, pour n'en nommer que quelques-uns. En outre, ChatGPT consulte des articles de revues scientifiques pour obtenir les dernières informations et recherches sur un sujet donné.
ChatGPT répond avec un certain aplomb, à toutes les questions, même quand il a tout faux. il ne faut pas oublier en effet que toutes les données présentes et disponibles datent d’avant fin 2021 et que tout ce qui se passe après n’est pas pertinent.
A la semaine prochaine !