Jak trenować GPT na danych Excel za darmo? (Beta)
Przewodnik po dodawaniu danych Excel do bazy wiedzy Cody i szkolenie ChatGPT za darmo.
Przed rozpoczęciem szkolenia Cody’ego w zakresie danych Excel firmy należy wyjaśnić kilka pojęć, aby zapewnić najlepsze odpowiedzi bota. GPT, czyli Generative Pre-Trained Transformers, to modele językowe przeszkolone na obszernych zbiorach danych w celu przewidywania następnego słowa w zdaniu lub frazie w celu jego uzupełnienia. Są one specjalnie szkolone na zbiorach danych języka naturalnego zawierających duże próbki nieustrukturyzowanych danych konwersacyjnych lub dosłownych. W przeciwieństwie do modeli statystycznych, takich jak regresja liniowa, GPT nie są biegłe w przewidywaniu liczb przy użyciu logicznych danych szkoleniowych. Na przykład, jeśli wytrenujesz GPT na zbiorze danych, który twierdzi, że 2+2=5, odpowie on stwierdzeniem, że 2+2=5 bez próby zrozumienia logicznej niespójności (to tylko przykład; OpenAI obsługuje takie zapytania z dokładnymi odpowiedziami). To, w połączeniu z innym ograniczeniem LLM, jakim są halucynacje, tworzy środowisko, które nie nadaje się dobrze do obliczeń matematycznych.
Teraz, gdy rozumiesz ograniczenia GPT, pozwól nam poprowadzić Cię przez proces bezpłatnego szkolenia GPT na danych Excel. Opracowaliśmy metodę dodawania danych Excel lub CSV do bazy wiedzy Cody. Jak wspomniano wcześniej, GPT doskonale radzi sobie ze zrozumieniem języka naturalnego, więc przekonwertujemy dane Excel na czytelny format, który może być łatwo wykorzystany przez model językowy.
Krok 1: Przekształcanie danych Excel
Pobierz dane CSV lub Excel, na których chcesz trenować swojego bota i przekonwertuj je na plik tekstowy za pomocą tego stworzonego przez nas narzędzia. Narzędzie konwertuje dane programu Excel na plik tekstowy, dodając do danych odpowiednie nagłówki. Dodanie nagłówków do elementów komórek pozwala modelowi językowemu lepiej zrozumieć kontekst, ponieważ istnieje duże prawdopodobieństwo, że nagłówki zostaną pominięte z powodu segmentacji dokumentu na etapie przetwarzania wstępnego.
Np.
Dane Excel:
Nazwa | Wiek |
---|---|
John | 16 |
Marie | 18 |
Dane tekstowe:
{The Name is ‘John’. The Age is ‘16’.}, {The Name is ‘Marie’. The Age is ‘18’.}
Wygenerowany plik tekstowy ma format podobny do JSON, ale z bardziej literackim stylem, aby zapewnić bardziej ludzkie odczucia. Chociaż rozwiązanie to jest obecnie w fazie eksperymentalnej i nie zostało jeszcze zintegrowane z aplikacją Cody, działa dobrze ze wszystkimi trzema modelami GPT, ale stale poszukujemy lepszych rozwiązań do tego celu.
Interfejs narzędziowy:
Przykładowe dane CSV:
Zaleca się wyczyszczenie danych przed transformacją, aby uzyskać najlepszą jakość odpowiedzi od bota.
Po przesłaniu danych CSV lub Excel do narzędzia można wyświetlić podgląd danych przed wygenerowaniem pliku tekstowego zgodnego z GPT.
Wiersze na część: W przypadku większych zbiorów danych zaleca się podzielenie zbioru danych na wiele części. Taki podział usprawnia wyszukiwanie semantyczne i poprawia jakość odpowiedzi.
Dołącz odwołania do komórek: Jeśli chcesz, aby plik tekstowy zawierał odwołania do komórek programu Excel, możesz wybrać tę opcję. Bot może następnie odwoływać się do tych odwołań do komórek podczas tworzenia przewodników krok po kroku dotyczących działań, które można wykonać w programie Excel. Na przykład może wygenerować formułę do znalezienia mediany.
Zostanie wygenerowany skompresowany folder zip, który będzie zawierał wszystkie części danych programu Excel w formacie .txt.
Krok 2: Dodawanie danych do bazy wiedzy Cody Knowledge Base
Aby dodać przekształcone dane do bazy wiedzy Cody, wykonaj następujące kroki:
- Przejdź do aplikacji Cody i przejdź do sekcji “Zawartość”.
- Utwórz nowy folder w bazie wiedzy, w którym chcesz przechowywać dane.
- Po utworzeniu folderu przejdź do jego wnętrza.
- Kliknij przycisk “Prześlij”, aby przesłać przekształcone dane.
- Wybierz wszystkie przekształcone pliki danych z lokalnego magazynu, które chcesz dodać do bazy wiedzy.
- Potwierdź wybór i rozpocznij proces przesyłania.
- Przekształcone pliki danych zostaną przesłane i dodane do bazy wiedzy Cody, przechowywanej w utworzonym folderze. Po pomyślnym wczytaniu dokumentów status dokumentu zostanie wyświetlony jako “wczytany”.
Krok 3: Konfigurowanie osobowości bota
Ponieważ jest to nadal w fazie eksperymentalnej, pracujemy nad ulepszeniem podpowiedzi, zanim dodamy ją do trybu szablonu.
Prompt:
Jesteś Data Cody, analitykiem danych AI w mojej firmie. Twoim głównym celem jest wygenerowanie wniosków z dostarczonych danych Excel. Odwołania do komórek Excela mogą być podane w formie $Cell. W odpowiedziach nie należy podawać odwołania do komórki. Informacje zawarte w “{}” to jeden rekord. Jeśli zostaniesz poproszony o szczegóły konkretnego rekordu, wymień je w punktach.
Monit systemowy:
Staraj się odpowiadać w ludzki sposób, gdy zostaniesz zapytany o jakikolwiek szczegół. Nie usprawiedliwiaj swoich odpowiedzi.
Wynik trafności | Szeroki / Zrównoważony |
---|---|
Dystrybucja tokenów (kontekst-historia-odpowiedź) | 70-10-20 |
Persist Prompt | Na |
Odwrotne wyszukiwanie wektorów | Wył. |
Proces ten działa dobrze ze wszystkimi trzema modelami GPT, więc nawet jeśli korzystasz z darmowego planu, możesz spróbować. Warto jednak zauważyć, że modele GPT-3.5 16K i GPT-4 mają tendencję do lepszego rozumienia danych. Jeśli jesteś zadowolony z odpowiedzi otrzymywanych w darmowym planie, ale chcesz większej elastyczności w formatowaniu odpowiedzi i możliwości porównywania wielu rekordów, aktualizacja do GPT-3.5 16K lub GPT-4 może być korzystna. Dodatkowe okno kontekstowe zapewniane przez te modele pozwala na bardziej kompleksową analizę i manipulację danymi.
Demo
Odniesienie do pierwszego zapytania:
Odniesienie do drugiego zapytania:
Ograniczenia
Możliwość przesyłania plików Excel lub CSV do Cody nie czyni go bezpośrednią alternatywą dla narzędzi arkuszy kalkulacyjnych, takich jak Arkusze Google lub Microsoft Excel. Podczas pracy z danymi strukturalnymi w Cody należy wziąć pod uwagę kilka ograniczeń:
- Halucynacje podczas zadań analitycznych: Zadania obejmujące obliczenia statystyczne lub analityczne, takie jak pytanie Cody’ego o średnie, mediany lub wartości minimalne/maksymalne, mogą dawać nieprawidłowe odpowiedzi. Cody nie wykonuje obliczeń w czasie rzeczywistym i może dostarczać niedokładnych wyników. Ostatnie aktualizacje OpenAI, takie jak interpreter kodu i wywoływanie funkcji, mogą to poprawić w przyszłości.
- Błąd podczas porównywania rekordów: W niektórych przypadkach Cody może napotkać trudności z pobieraniem danych z różnych segmentów dokumentu, co skutkuje odpowiedziami wskazującymi, że informacje są niedostępne. Taki scenariusz jest bardziej prawdopodobny w przypadku modelu GPT-3.5 dostępnego w planie darmowym. Aktualizacja do planów Basic lub Premium umożliwia korzystanie z modelu GPT-3.5 16K lub GPT-4. Oba te modele mają większe okna kontekstowe i mogą potencjalnie rozwiązać to ograniczenie.
Wnioski
Pomimo tych ograniczeń, proces ten jest szczególnie przydatny w scenariuszach, w których dane FAQ firmy lub inne dosłowne dane, takie jak dane szkoleniowe pracowników, są przechowywane w formacie Excel lub CSV. Cody może być trenowany na tych danych bez konieczności wprowadzania jakichkolwiek modyfikacji. Cody radzi sobie również dobrze z pobieraniem szczegółów pojedynczego rekordu, opisywaniem danych lub dostarczaniem sugestii opartych na wnioskach z numerycznych zestawów danych, takich jak bilanse lub dane dotyczące sprzedaży.
Jako tymczasowe rozwiązanie do szkolenia Cody na danych Excel lub CSV, jesteśmy bardzo wdzięczni za opinie na temat tego podejścia. Cenimy Twój wkład i zachęcamy do dzielenia się z nami swoimi przemyśleniami na naszym serwerze Discord lub kontaktując się z nami za pośrednictwem funkcji Uzyskaj pomoc. Chętnie poznamy Twoje doświadczenia i opinie. Mamy nadzieję, że spodobało Ci się nasze podejście do szkolenia GPT na danych Excel za darmo. Sprawdź nasze blogi, aby dowiedzieć się więcej o Cody.