Chatgpt est-il formé sur les données GitHub

ChatGPT, le modèle de langage d’OpenAI, a été entraîné sur des volumes massifs de texte provenant d’internet. GitHub, la plus grande plateforme de dépôts de code au monde, fait partie des sources régulièrement évoquées. La question de savoir si le code hébergé sur GitHub alimente directement l’apprentissage de ChatGPT reste pourtant sans réponse définitive de la part d’OpenAI.

Sommaire

Corpus d’entraînement d’OpenAI : ce que la documentation ne dit pas sur GitHub Dépôts privés GitHub et entraînement de ChatGPT : une frontière technique à clarifier GitHub Copilot et ChatGPT : deux produits, deux logiques de données Conséquences pour les développeurs qui publient du code sur GitHub Transparence des données d’entraînement : une exigence croissante

Corpus d’entraînement d’OpenAI : ce que la documentation ne dit pas sur GitHub

OpenAI n’a jamais publié la liste complète des jeux de données utilisés pour entraîner ses modèles GPT. Les publications techniques de l’entreprise mentionnent des corpus de texte issus du web, de livres numérisés et de « sources internet variées », sans préciser nommément GitHub.

A voir aussi : Qu'est-ce que le remplissage dans LLM ?

Cette opacité n’est pas propre à OpenAI. La plupart des développeurs de grands modèles de langage restent vagues sur la composition exacte de leurs données d’entraînement, invoquant des raisons de propriété intellectuelle et de concurrence.

Ce que l’on sait, en revanche, c’est que le code source public disponible sur le web fait partie des données d’entraînement de la famille GPT. Les dépôts publics GitHub, indexés par les moteurs de recherche et accessibles sans authentification, constituent une fraction significative du code ouvert disponible en ligne. Considérer qu’une partie de ce code a nourri les modèles GPT relève d’une déduction raisonnable, pas d’une certitude documentée.

A lire en complément : Comment créer une checklist interactive ?

Femme développeuse travaillant sur un laptop affichant ChatGPT et GitHub dans un bureau minimaliste à domicile, questionnant l'utilisation des données de code open source pour entraîner l'IA

Dépôts privés GitHub et entraînement de ChatGPT : une frontière technique à clarifier

La distinction entre dépôts publics et dépôts privés est le noeud du problème. Les données disponibles ne permettent pas de conclure que les dépôts privés ont été utilisés pour l’entraînement de ChatGPT.

GitHub appartient à Microsoft, qui est aussi le principal investisseur d’OpenAI. Cette proximité alimente les spéculations. La documentation officielle de GitHub sur la connexion avec ChatGPT précise que le modèle peut « extraire des données en direct de vos dépôts » pour raisonner dessus en temps réel, mais cette fonctionnalité relève de l’utilisation contextuelle, pas de l’entraînement.

La nuance est technique et souvent mal comprise :

L’utilisation contextuelle signifie que ChatGPT lit votre code au moment de la conversation pour répondre à une question précise. Ces données transitent par le modèle sans être stockées durablement dans ses paramètres.
L’entraînement implique que le code est intégré au jeu de données servant à ajuster les poids du modèle lors d’une phase d’apprentissage. Le code modifie alors structurellement le comportement du modèle.
Une option « Data Controls » dans l’intégration Codex de ChatGPT permet de désactiver explicitement l’usage de vos dépôts pour l’amélioration des modèles, ce qui confirme que ces deux niveaux existent et sont distincts.

L’existence même de ce réglage indique que, par défaut ou par option, certaines données de dépôts pourraient servir à améliorer les modèles. Le mécanisme exact reste opaque.

GitHub Copilot et ChatGPT : deux produits, deux logiques de données

La confusion entre GitHub Copilot et ChatGPT brouille régulièrement le débat. Copilot a été entraîné sur du code public hébergé sur GitHub, ce qui est documenté et a donné lieu à des procédures judiciaires aux États-Unis. Copilot et ChatGPT ne partagent pas le même modèle de base ni la même architecture d’entraînement.

Copilot s’appuie sur un modèle Codex, dérivé de GPT mais spécialisé pour la génération de code. ChatGPT utilise des modèles GPT orientés vers le langage naturel, avec des capacités de programmation acquises lors d’un entraînement plus généraliste. Les deux produits appartiennent à des organisations liées (OpenAI et Microsoft/GitHub), mais leurs pipelines d’entraînement sont distincts.

Le fait que Copilot ait été nourri de code GitHub public suggère que des datasets similaires, ou des sous-ensembles, auraient pu alimenter les modèles GPT. Les retours terrain divergent sur ce point : certains développeurs constatent que ChatGPT reproduit des patterns très spécifiques à des bibliothèques open source populaires, ce qui laisse penser que du code GitHub figure dans son corpus.

Conséquences pour les développeurs qui publient du code sur GitHub

Pour un développeur publiant du code sous licence open source sur GitHub, la question pratique se pose en termes concrets. Si votre code public a pu servir à entraîner un modèle de langage, quelles sont les implications juridiques et pratiques ?

Le cadre juridique reste flou dans la plupart des juridictions. En Europe, le RGPD encadre le traitement des données personnelles, mais le code source n’est pas systématiquement considéré comme une donnée personnelle. Les licences open source courantes (Apache, GPL) autorisent des usages larges du code, sans nécessairement couvrir l’entraînement de modèles d’IA, un cas d’usage que leurs rédacteurs n’avaient pas anticipé.

Quelques mesures concrètes existent pour les développeurs soucieux de contrôler l’usage de leur code :

Passer un dépôt en privé empêche l’indexation publique et réduit l’exposition aux scrapers utilisés pour constituer des corpus d’entraînement.
Utiliser les réglages « Data Controls » dans les outils connectés à ChatGPT ou Copilot permet de refuser l’utilisation de vos dépôts pour l’amélioration des modèles.
Ajouter un fichier robots.txt ou un fichier de politique d’IA dans un dépôt reste symbolique, car rien ne garantit que les collecteurs de données respectent ces directives.

Gros plan d'un laptop affichant un dépôt GitHub et un article sur les données d'entraînement de l'IA posé sur une table de café, symbolisant le débat sur l'utilisation du code open source par ChatGPT

Transparence des données d’entraînement : une exigence croissante

La pression réglementaire monte sur la question de la transparence des corpus d’entraînement. L’AI Act européen impose des obligations de documentation pour les modèles d’IA à usage général, incluant un résumé des données d’entraînement. OpenAI devra, à terme, fournir davantage de détails sur les sources utilisées pour ses modèles GPT.

L’absence de règles explicites nuit autant aux développeurs qu’aux entreprises d’IA, et la prise de conscience autour de cette question progresse dans plusieurs juridictions.

La réponse à la question initiale reste donc incomplète. ChatGPT a probablement été exposé à du code public provenant de GitHub lors de son entraînement sur des données web, mais OpenAI ne l’a ni confirmé ni infirmé de manière explicite. Les dépôts privés ne semblent pas concernés par l’entraînement, et des mécanismes de contrôle existent pour limiter l’usage de votre code connecté. Le flou persistant autour de ces pratiques rend la vigilance individuelle d’autant plus nécessaire.