Comment entraîner GPT sur des données Excel gratuitement ? (Beta)

Un guide pour ajouter des données Excel à votre base de connaissances Cody et à la formation ChatGPT gratuitement.

Avant de commencer à former Cody sur les données Excel de votre entreprise, il est nécessaire de clarifier quelques concepts pour garantir les meilleures réponses de votre robot. Les GPT (Generative Pre-Trained Transformers) sont des modèles de langage formés sur des ensembles de données étendus pour prédire le mot suivant dans une phrase ou une expression afin de la compléter. Ils sont spécifiquement formés sur des ensembles de données en langage naturel comprenant de larges échantillons de données conversationnelles ou littérales non structurées. Contrairement aux modèles statistiques tels que la régression linéaire, les TPG ne sont pas compétents pour prédire des nombres à l’aide de données d’apprentissage logiques. Par exemple, si vous entraînez GPT sur un ensemble de données qui affirme que 2+2=5, il répondra en affirmant que 2+2=5 sans chercher à comprendre l’incohérence logique (ce n’est qu’un exemple ; OpenAI traite de telles requêtes avec des réponses précises). Ceci, associé à une autre limitation des LLM, à savoir les hallucinations, crée un environnement qui ne se prête pas aux calculs mathématiques.

Maintenant que vous comprenez les limites de GPT, laissez-nous vous guider à travers un processus d’entraînement de GPT sur des données Excel gratuitement. Nous avons développé une méthode pour ajouter des données Excel ou CSV à votre base de connaissances Cody. Comme indiqué précédemment, GPT excelle dans la compréhension du langage naturel, nous allons donc convertir les données Excel dans un format lisible qui peut être facilement consommé par le modèle linguistique.

Étape 1 : Transformation des données Excel

Récupérez les données CSV ou Excel sur lesquelles vous souhaitez former votre robot et convertissez-les en fichier texte à l’aide de cet utilitaire que nous avons créé. L’utilitaire convertit les données Excel en un fichier texte en annotant les données avec les en-têtes correspondants. L’annotation des cellules par des en-têtes permet au modèle de langage de mieux comprendre le contexte, car il est fort probable que les en-têtes soient ignorés en raison de la segmentation des documents lors de la phase de prétraitement.

Eg.

Données Excel :

Données textuelles :

{The Name is ‘John’. The Age is ‘16’.}, {The Name is ‘Marie’. The Age is ‘18’.}

Le fichier texte généré suit un format similaire à JSON mais avec un style plus littéraire pour donner une impression plus humaine. Bien que cette solution soit actuellement au stade expérimental et ne soit pas encore intégrée à l’application Cody, elle fonctionne bien avec les trois modèles de TPG, mais nous continuons d’explorer de meilleures solutions à cette fin.

Interface de l’utilitaire :

CSV/Excel to TXT converter for Cody for Training GPT on Excel data for free

Exemple de données CSV :

Exemple de données CSV pour la formation GPT sur des données Excel gratuitement

Il est recommandé de nettoyer les données avant de les transformer afin d’obtenir des réponses de meilleure qualité de la part de votre robot.

Interface utilisateur du convertisseur pour l'entraînement GPT sur des données Excel gratuitement

Après avoir téléchargé les données CSV ou Excel dans l’utilitaire, vous pouvez prévisualiser les données avant de générer le fichier texte compatible GPT.

Lignes par partie : Pour les grands ensembles de données, il est conseillé de diviser l’ensemble de données en plusieurs parties. Cette division améliore la recherche sémantique et la qualité des réponses.

Inclure les références de cellules : Si vous souhaitez que le fichier texte contienne les références des cellules Excel, vous pouvez sélectionner cette option. Le robot peut ensuite se référer à ces références de cellules lorsqu’il crée des guides étape par étape pour les actions qui peuvent être effectuées dans Excel. Par exemple, il peut générer une formule pour trouver la médiane.

Un dossier zip compressé sera généré et contiendra toutes les parties de vos données Excel au format .txt.

Fichiers générés pour la formation GPT sur des données Excel gratuitement

Étape 2 : Ajout des données à la base de connaissances Cody

Pour ajouter les données transformées à la base de connaissances Cody, procédez comme suit :

  1. Allez dans l’application Cody et naviguez jusqu’à la section “Contenu”.
  2. Créez un nouveau dossier dans la base de connaissances où vous souhaitez stocker les données.
  3. Une fois le dossier créé, naviguez à l’intérieur de celui-ci.
  4. Cliquez sur le bouton “Upload” pour télécharger les données transformées.
  5. Sélectionnez tous les fichiers de données transformées de votre stockage local que vous souhaitez ajouter à la base de connaissances.
  6. Confirmez la sélection et lancez le processus de téléchargement.
  7. Les fichiers de données transformés seront téléchargés et ajoutés à la base de connaissances de Cody, dans le dossier que vous avez créé. Lorsque les documents ont été appris avec succès, le statut du document s’affiche avec la mention “appris”.

Fichiers texte téléchargés pour Training GPT on Excel data for free

Étape 3 : Mise en place de la personnalité du bot

Comme il s’agit encore d’une phase expérimentale, nous travaillons à l’amélioration de l’invite avant de l’ajouter au mode modèle.

Prompt :

Vous êtes Data Cody, un analyste de données d’IA pour mon entreprise. Votre objectif principal est de tirer des conclusions à partir des données Excel qui vous sont fournies. Les références des cellules Excel peuvent être données sous la forme $Cell. Ne pas mentionner la référence de la cellule dans les réponses. L’information contenue dans “{}” est un enregistrement. Si l’on vous demande les détails d’un enregistrement spécifique, énoncez-les sous forme de pointeurs.

Invite du système :

Essayez de répondre d’une manière humaine lorsque vous êtes interrogé sur un détail. Ne justifiez pas vos réponses.

Ce processus fonctionne bien avec les trois modèles GPT, donc même si vous êtes sur le plan gratuit, vous pouvez l’essayer. Toutefois, il convient de noter que les modèles GPT-3.5 16K et GPT-4 ont tendance à mieux comprendre les données. Si vous êtes satisfait des réponses que vous obtenez avec le plan gratuit, mais que vous souhaitez bénéficier d’une plus grande souplesse dans le formatage des réponses et de la possibilité de comparer plusieurs enregistrements, le passage à GPT-3.5 16K ou à GPT-4 peut s’avérer bénéfique. La fenêtre contextuelle supplémentaire fournie par ces modèles permet une analyse et une manipulation plus complètes des données.

Démonstration

Démonstration gratuite de la formation GPT sur des données Excel

Référence pour la première requête :

Référence pour la deuxième requête :

Limites

La possibilité de télécharger des fichiers Excel ou CSV vers Cody n’en fait pas une alternative directe aux tableurs tels que Google Sheets ou Microsoft Excel. Il existe plusieurs limitations à prendre en compte lorsque l’on travaille avec des données structurées dans Cody :

  1. Hallucinations lors de tâches analytiques : Les tâches impliquant des calculs statistiques ou analytiques, comme demander à Cody des moyennes, des médianes ou des valeurs min/max, peuvent donner lieu à des réponses incorrectes. Cody n’effectue pas de calculs en temps réel et peut fournir des résultats inexacts. Les récentes mises à jour d’OpenAI, comme l’interpréteur de code et l’appel de fonction, pourraient améliorer cette situation à l’avenir.
  2. Erreur lors de la comparaison des enregistrements : Dans certains cas, Cody peut rencontrer des difficultés pour extraire des données de différents segments du document, ce qui entraîne des réponses indiquant que l’information n’est pas disponible. Ce scénario est plus probable avec le modèle GPT-3.5 disponible dans le plan gratuit. Le passage aux plans Basic ou Premium vous permet d’utiliser le modèle GPT-3.5 16K ou le modèle GPT-4. Ces deux modèles ont des fenêtres contextuelles plus larges et peuvent potentiellement remédier à cette limitation.

Conclusion

Malgré ces limites, ce processus est particulièrement utile pour les scénarios dans lesquels les données de la FAQ de votre entreprise ou d’autres données littérales, telles que les données de formation des employés, sont stockées au format Excel ou CSV. Cody peut être entraîné sur ces données sans aucune modification. Cody est également performant lorsqu’il s’agit de récupérer les détails d’un seul enregistrement, de décrire les données ou de fournir des suggestions basées sur des informations déduites d’ensembles de données numériques tels que des bilans ou des chiffres de vente.

En tant que solution provisoire pour la formation de Cody sur des données Excel ou CSV, nous vous remercions de nous faire part de vos commentaires sur cette approche. Nous apprécions votre contribution et vous encourageons à partager vos idées avec nous sur notre serveur Discord ou en nous contactant par le biais de la fonction Obtenir de l’aide. Nous sommes impatients de connaître votre expérience et d’en apprendre davantage grâce à vos commentaires. Nous espérons que vous avez apprécié notre approche de la formation GPT sur les données Excel gratuitement. Consultez nos blogs pour en savoir plus sur Cody.

 

More From Our Blog

OpenAI o1 et o1-Mini : Prix, performances et comparaison

OpenAI o1 et o1-Mini : Prix, performances et comparaison

OpenAI a dévoilé ses dernières innovations en matière d’intelligence artificielle, les modèles o1 et o1-Mini, qui marquent une étape importante dans l’évolution de l’intelligence artificielle. Ces modèles mettent l’acc...

Read More
Maîtrisez les grands modèles linguistiques (LLM) grâce à ces ressources LLM gratuites

Maîtrisez les grands modèles linguistiques (LLM) grâce à ces ressources LLM gratuites

Les grands modèles de langage (LLM) représentent une avancée révolutionnaire dans le domaine de l’intelligence artificielle. Ils sont conçus pour traiter et générer du langage humain avec une compétence remarquable. Ces modèles, tels q...

Read More

Build Your Own Business AI

Get Started Free
Top