Author: Om Kamath

Om Kamath

Jak zautomatyzować zadania za pomocą narzędzi Anthropic i Claude 3?

Posted on June 3, 2024 by Om Kamath - Bez kategorii

Rozpoczęcie pracy z narzędziami Anthropic

Największą zaletą zatrudniania LLM do zadań jest ich wszechstronność. LLM mogą być podpowiadane w określony sposób, aby służyć niezliczonym celom, funkcjonując jako API do generowania tekstu lub konwertowania nieustrukturyzowanych danych do zorganizowanych formatów. Wielu z nas korzysta z ChatGPT w codziennych zadaniach, czy to komponując e-maile, czy angażując się w zabawne debaty ze sztuczną inteligencją.

Architektura wtyczek, znanych również jako “GPT”, opiera się na identyfikowaniu słów kluczowych z odpowiedzi i zapytań oraz wykonywaniu odpowiednich funkcji. Wtyczki te umożliwiają interakcję z zewnętrznymi aplikacjami lub uruchamiają niestandardowe funkcje.

Podczas gdy OpenAI przodował w umożliwianiu wywoływania funkcji zewnętrznych do wykonywania zadań, Anthropic wprowadził niedawno ulepszoną funkcję o nazwie “Tool Use”, zastępując poprzedni mechanizm wywoływania funkcji. Zaktualizowana wersja upraszcza programowanie, wykorzystując JSON zamiast znaczników XML. Dodatkowo, Claude-3 Opus może pochwalić się przewagą nad modelami GPT dzięki większemu oknu kontekstowemu wynoszącemu 200 tys. tokenów, co jest szczególnie cenne w określonych scenariuszach.

Na tym blogu zbadamy koncepcję “korzystania z narzędzi”, omówimy jej funkcje i zaoferujemy wskazówki dotyczące rozpoczęcia pracy.

Co to jest “korzystanie z narzędzi”?

Claude ma możliwość interakcji z zewnętrznymi narzędziami i funkcjami po stronie klienta, umożliwiając wyposażenie Claude we własne niestandardowe narzędzia do szerszego zakresu zadań.

Przepływ pracy podczas korzystania z Tools with Claude jest następujący:

Zapewnienie Claude’owi narzędzi i podpowiedzi dla użytkownika (żądanie API)
- Zdefiniuj zestaw narzędzi do wyboru przez Claude’a.
- Dołącz je wraz z zapytaniem użytkownika do monitu o wygenerowanie tekstu.
Claude wybiera narzędzie
- Claude analizuje monit użytkownika i porównuje go ze wszystkimi dostępnymi narzędziami, aby wybrać najbardziej odpowiednie.
- Wykorzystując proces “myślenia” LLM, identyfikuje słowa kluczowe wymagane dla odpowiedniego narzędzia.
Generowanie odpowiedzi (odpowiedź API)
- Po zakończeniu procesu jako dane wyjściowe generowany jest monit wraz z wybranym narzędziem i parametrami.

Po zakończeniu tego procesu użytkownik wykonuje wybraną funkcję/narzędzie i w razie potrzeby wykorzystuje jej dane wyjściowe do wygenerowania kolejnej odpowiedzi.

Ogólny schemat narzędzia

Schemat ten służy jako środek przekazywania wymagań dotyczących procesu wywoływania funkcji do LLM. Nie wywołuje ona bezpośrednio żadnej funkcji ani nie wyzwala samodzielnie żadnych działań. Aby zapewnić dokładną identyfikację narzędzi, należy podać szczegółowy opis każdego z nich. Properties w schemacie są wykorzystywane do identyfikacji parametrów, które zostaną przekazane do funkcji na późniejszym etapie.

Demonstracja

Przejdźmy dalej i zbudujmy narzędzia do skrobania sieci i znajdowania ceny dowolnych akcji.

Narzędzia Schemat

Narzędzie scrape_website pobierze adres URL strony internetowej z monitu użytkownika. Jeśli chodzi o narzędzie stock_price, zidentyfikuje ono nazwę firmy z monitu użytkownika i przekonwertuje ją na ticker yfinance.

Monit użytkownika

Zadanie botowi dwóch zapytań, po jednym dla każdego narzędzia, daje nam następujące wyniki:

Proces myślenia obejmuje wszystkie kroki podejmowane przez LLM w celu dokładnego wyboru odpowiedniego narzędzia dla każdego zapytania i wykonania niezbędnych konwersji zgodnie z opisami narzędzi.

Wybór odpowiedniego narzędzia

Będziemy musieli napisać dodatkowy kod, który uruchomi odpowiednie funkcje w oparciu o warunki.

Funkcja ta służy do aktywacji odpowiedniego kodu na podstawie nazwy narzędzia pobranej w odpowiedzi LLM. W pierwszym warunku pobieramy adres URL strony internetowej uzyskany z danych wejściowych narzędzia, podczas gdy w drugim warunku pobieramy ticker giełdowy i przekazujemy go do biblioteki python yfinance.

Wykonywanie funkcji

Przekażemy cały adres ToolUseBlock w funkcji select_tool(), aby uruchomić odpowiedni kod.

Wyjścia

Pierwsza zachęta
Druga zachęta

Jeśli chcesz zobaczyć cały kod źródłowy tej demonstracji, możesz wyświetlić ten notatnik.

Niektóre przypadki użycia

Funkcja “tool use” dla Claude podnosi wszechstronność LLM na zupełnie nowy poziom. Chociaż podany przykład jest podstawowy, służy jako podstawa do rozszerzenia funkcjonalności. Oto jedno z jego rzeczywistych zastosowań:

Wczoraj @AnthropicAI uruchomił wersję beta narzędzia!

Oto przykład czegoś, co zbudowałem za jego pomocą: bot obsługi klienta, który może faktycznie rozwiązać twoją sprawę!

Nie mogę się doczekać, aby zobaczyć, co jeszcze ludzie zbudują! https://t.co/Xmi7pnwouS pic.twitter.com/T5bE4peexR

– Erik Schluntz (@ErikSchluntz) 5 kwietnia 2024 r.

Aby znaleźć więcej przypadków użycia, można odwiedzić oficjalne repozytorium Anthropic
tutaj
.

Najlepsze przestrzenie do przytulania twarzy, które powinieneś sprawdzić w 2024 roku

Posted on May 31, 2024 by Om Kamath - Bez kategorii

Hugging Face szybko stał się platformą w społeczności uczenia maszynowego, oferując obszerny zestaw narzędzi i modeli dla NLP, wizji komputerowej i nie tylko. Jedną z najpopularniejszych ofert jest Hugging Face Spaces, platforma współpracy, na której programiści mogą udostępniać aplikacje do uczenia maszynowego i wersje demonstracyjne. Te “przestrzenie” pozwalają użytkownikom na bezpośrednią interakcję z modelami, oferując praktyczne doświadczenie z najnowocześniejszą technologią AI.

W tym artykule wyróżnimy pięć wyróżniających się przestrzeni Hugging Face Spaces, które powinieneś sprawdzić w 2024 roku. Każda z tych przestrzeni zapewnia unikalne narzędzie lub generator, który wykorzystuje ogromną moc dzisiejszych modeli sztucznej inteligencji. Zagłębmy się w szczegóły.

EpicrealismXL

Epicrealismxl to najnowocześniejszy generator tekstu na obraz, który wykorzystuje model stablediffusion epicrealism-xl. To miejsce umożliwia dostarczenie aplikacji podpowiedzi, negatywnych podpowiedzi i kroków próbkowania w celu wygenerowania zapierających dech w piersiach obrazów. Niezależnie od tego, czy jesteś artystą szukającym inspiracji, czy marketerem szukającym wizualizacji, epicrealismxl oferuje wysokiej jakości generowanie obrazów, które są tak realistyczne, jak epickie.

Podcastify

Podcastify rewolucjonizuje sposób korzystania z treści pisanych poprzez przekształcanie artykułów w podcasty audio. Po prostu wklej adres URL artykułu, który chcesz przekonwertować, do pola tekstowego, kliknij “Podcastify” i voila! Świeżo wygenerowany podcast jest gotowy do odsłuchania lub wyświetlenia w zakładce konwersacji. To narzędzie jest idealne dla wielozadaniowców, którzy preferują naukę ze słuchu lub osób w podróży.

Dalle-3-xl-lora-v2

Inny gwiezdny generator tekstu na obraz, dalle-3-xl-lora-v2, wykorzystuje niesławny model DALL-E 3. Podobnie jak epicrealismxl, narzędzie to umożliwia generowanie obrazów na podstawie podpowiedzi tekstowych. DALL-E 3 jest znany ze swojej wszechstronności i kreatywności, co czyni go doskonałym wyborem do generowania złożonych i unikalnych wizualizacji dla różnych aplikacji.

AI Web Scraper

AI Scraper zapewnia zaawansowane możliwości skrobania stron internetowych na wyciągnięcie ręki bez konieczności posiadania umiejętności kodowania. To narzędzie bez użycia kodu umożliwia łatwe skrobanie i podsumowywanie treści internetowych przy użyciu zaawansowanych modeli sztucznej inteligencji hostowanych w Hugging Face Hub. Wprowadź żądany monit i źródłowy adres URL, aby rozpocząć wyodrębnianie przydatnych informacji w formacie JSON. Narzędzie to jest niezbędne dla dziennikarzy, badaczy i twórców treści.

Generator kodów QR AI

AI QR Code Generator przenosi kody QR na zupełnie nowy poziom artystyczny. Dzięki wykorzystaniu obrazu kodu QR zarówno jako obrazu początkowego, jak i kontrolnego, narzędzie to umożliwia generowanie kodów QR, które naturalnie łączą się z dostarczonym monitem. Dostosuj parametry skali siły i kondycji, aby stworzyć estetyczne kody QR, które są zarówno funkcjonalne, jak i piękne.

Wnioski

Hugging Face Spaces są świadectwem szybkiego postępu w uczeniu maszynowym i sztucznej inteligencji. Niezależnie od tego, czy jesteś artystą, twórcą treści, marketerem, czy po prostu entuzjastą sztucznej inteligencji, te pięć najlepszych przestrzeni oferuje różne narzędzia i generatory, które mogą usprawnić przepływ pracy i rozpalić kreatywność. Koniecznie zapoznaj się z tymi przestrzeniami, aby wyprzedzić konkurencję w 2024 roku. Jeśli chcesz dowiedzieć się więcej o 5 najlepszych studiach LLM z otwartym kodem źródłowym w 2024 roku, przeczytaj nasz blog tutaj.

Gemini 1.5 Flash vs GPT-4o: Odpowiedź Google na GPT-4o?

Posted on May 28, 2024 by Om Kamath - Bez kategorii

Wyścig sztucznej inteligencji nasilił się, stając się grą w nadrabianie zaległości między dużymi graczami w branży technologicznej. Premiera GPT-4o tuż przed Google I/O nie jest przypadkowa. Niesamowite możliwości GPT-4o w zakresie multimodalności, a dokładniej omnimodalności, wywarły znaczący wpływ na konkurencję Generative AI. Jednak Google nie należy do osób, które się powstrzymują. Podczas Google I/O ogłosili nowe warianty swoich modeli Gemini i Gemma. Spośród wszystkich zapowiedzianych modeli, Gemini 1.5 Flash wyróżnia się jako najbardziej efektowny. Na tym blogu zbadamy najważniejsze cechy Gemini 1.5 Flash i porównamy go z Gemini 1.5 Pro i Gemini 1.5 Flash vs GPT-4o, aby określić, który z nich jest lepszy.

Porównanie Gemini 1.5 Flash vs GPT-4o

W oparciu o wyniki testów porównawczych opublikowanych przez Google, Gemini 1.5 Flash ma lepszą wydajność w zakresie dźwięku w porównaniu do wszystkich innych LLM Google i jest na równi z wychodzącym modelem Gemini 1.5 Pro (luty 2024) w innych testach porównawczych. Chociaż nie zalecamy całkowitego polegania na benchmarkach w celu oceny wydajności dowolnego LLM, pomagają one w ilościowym określeniu różnicy w wydajności i drobnych ulepszeniach. Słoniem w pokoju jest koszt Gemini 1.5 Flash. W porównaniu do GPT-4o, Gemini 1.5 Flash jest znacznie bardziej przystępny cenowo.

Okno kontekstowe

Podobnie jak Gemini 1.5 Pro, Flash jest wyposażony w okno kontekstowe o pojemności 1 miliona tokenów, czyli więcej niż którykolwiek z modeli OpenAI i jest jednym z największych okien kontekstowych dla LLM klasy produkcyjnej. Większe okno kontekstowe pozwala na lepsze zrozumienie danych i może poprawić techniki innych firm, takie jak RAG (Retrieval-Augmented Generation) dla przypadków użycia z dużą bazą wiedzy poprzez zwiększenie rozmiaru fragmentu. Dodatkowo, większe okno kontekstowe pozwala na generowanie większej ilości tekstu, co jest pomocne w scenariuszach takich jak pisanie artykułów, e-maili i informacji prasowych.

Multimodalność

Gemini-1.5 Flash jest urządzeniem multimodalnym. Multimodalność pozwala na wprowadzanie kontekstu w postaci audio, wideo, dokumentów itp. LLM z multimodalnością są bardziej wszechstronne i otwierają drzwi do większej liczby zastosowań generatywnej sztucznej inteligencji bez konieczności wstępnego przetwarzania.

“Modele Gemini 1.5 są zbudowane do obsługi bardzo długich kontekstów; mają zdolność do przywoływania i rozumowania drobnoziarnistych informacji z co najmniej 10 milionów tokenów. Skala ta jest bezprecedensowa wśród współczesnych dużych modeli językowych (LLM) i umożliwia przetwarzanie długoformatowych danych wejściowych o mieszanej modalności, w tym całych kolekcji dokumentów, wielu godzin wideo i prawie pięciu dni audio”. – Raport DeepMind

Dabbas = wagon kolejowy w języku hindi. Demonstracja multimodalności i wielojęzyczności.

Multimodalność pozwala nam również wykorzystywać LLM jako substytuty innych wyspecjalizowanych usług. Na przykład. OCR lub Web Scraping.

Łatwe pobieranie danych ze stron internetowych i ich przekształcanie.

Prędkość

Gemini 1.5 Flash, jak sama nazwa wskazuje, został zaprojektowany tak, aby mieć przewagę nad innymi modelami pod względem czasu reakcji. We wspomnianym powyżej przykładzie skrobania stron internetowych różnica w czasie odpowiedzi wynosi około 2,5 sekundy, czyli prawie 40% szybciej, co sprawia, że Gemini 1.5 Flash jest lepszym wyborem do automatyzacji lub dowolnego przypadku użycia, który wymaga niższych opóźnień.

Kilka interesujących przypadków użycia Gemini 1.5 Flash

Podsumowanie materiałów wideo

Zrozumienie wideo Gemini 1.5 Pro jest najbardziej niedocenianą rzeczą w sztucznej inteligencji.

W ~50s “zobaczył” 11-minutowy film na Youtube (~175k tokenów) z najbardziej kultowymi momentami w sporcie i był w stanie idealnie (według mojej wiedzy) wymienić wszystkie 18 momentów. Nie ma drugiego tak dobrego wideo AI! pic.twitter.com/LaVGR3ATfU – Deedy (@deedydas) April 5, 2024

Pisanie kodu przy użyciu wideo

To jest oszałamiające 🤯

Dałem Gemini 1.5 Flash nagranie wideo, w którym robię zakupy, a on dał mi kod Selenium w ~ 5 sekund. To może zmienić tak wiele rzeczy. pic.twitter.com/Ojm6aueLe7 – Min Choi (@minchoi) 18 maja 2024 r.

Automatyzacja rozgrywki

Zbudowałem własnego asystenta omni przy użyciu Gemini 1.5 Flash, który poprowadził mnie przez Super Mario 64.

Gemini widzi, co robię na ekranie i komunikuje się ze mną w czasie rzeczywistym za pomocą głosu, a dzięki długiemu kontekstowi 1M ma pamięć wszystkiego, co robimy razem. Niesamowite. pic.twitter.com/doTngufjFL – Pietro Schirano (@skirano) May 21, 2024

GPT-4o: OpenAI prezentuje najnowszy model językowy dostępny za darmo dla użytkowników

Posted on May 14, 2024 by Om Kamath - Bez kategorii

Po mnóstwie spekulacji w mediach społecznościowych i na innych forach na temat tego, co OpenAI ma dla nas w zanadrzu, wczoraj OpenAI w końcu ujawniło swój najnowszy i najpotężniejszy LLM do tej pory – GPT-4o (“o” dla omni). Jeśli przegapiłeś premierę GPT-4o, przejdźmy do możliwości GPT-4o i oferowanych przez niego funkcji.

Ulepszone funkcje audio, tekstowe i wizyjne

GPT-4 Turbo to potężny model, ale ma jedną wadę – opóźnienia. W porównaniu do GPT-3.5 Turbo, GPT-4 Turbo jest nadal znacznie wolniejszy. GPT-4o rozwiązuje tę wadę i jest 2x szybszy niż GPT-4 Turbo. Otwiera to szersze spektrum przypadków użycia obejmujących integrację danych z mowy, tekstu i wizji, idąc o krok dalej od multimodalności do omni-modalności. Główna różnica między trybem multimodalnym i omnimodalnym polega na tym, że w trybie omnimodalnym wszystkie trzy źródła mogą być płynnie uruchamiane równolegle.

Ulepszenia te umożliwiają również modelowi generowanie mowy z ulepszoną modulacją głosu, zdolnością rozumienia sarkazmu i ulepszonymi naturalnymi zdolnościami konwersacyjnymi.

Obniżone ceny i dostępne za darmo dla użytkowników ChatGPT

Chociaż GPT-4o jest bardziej wydajny i szybszy w porównaniu do GPT-4 Turbo, jest o połowę tańszy (API) od GPT-4 Turbo, co oznacza, że GPT-4o będzie kosztować 5,00 USD/1 mln tokenów wejściowych i 15,00 USD/1 mln tokenów wyjściowych. Dzięki lepszym cenom okno kontekstowe wynosi teraz 128 tys. tokenów, a limit wiedzy to październik 2023 r.

Jako wisienka na torcie, GPT-4o będzie dostępne dla wszystkich użytkowników ChatGPT za darmo (użytkownicy ChatGPT Plus będą mieli 5x cap na GPT-4o). Oprócz tego OpenAI zaprezentowało również aplikację ChatGPT na komputery stacjonarne, która pozwoli użytkownikom korzystać z możliwości wizyjnych GPT-4o do czytania i rozumienia treści wyświetlanych na ekranie. Użytkownicy będą mogli również rozmawiać z ChatGPT za pomocą aplikacji desktopowej.

GPT-4o Demo

OpenAI oświadczyło, że wprowadza dostęp do GPT-4o etapami w ciągu najbliższych kilku tygodni, a użytkownicy ChatGPT Plus otrzymają pierwszeństwo i wczesny dostęp do modelu. Prawdziwy potencjał tego modelu zrozumiemy dopiero, gdy uzyskamy do niego dostęp w nadchodzących tygodniach. Przed nami ekscytujące czasy!

Groq i Llama 3: Duet zmieniający zasady gry

Posted on May 6, 2024 by Om Kamath - Bez kategorii

Kilka miesięcy temu nowa firma o nazwie “Groq” pojawiła się pozornie znikąd, dokonując przełomu w branży sztucznej inteligencji. Zapewniły one platformę dla programistów, aby uzyskać dostęp do LPU jako silników wnioskowania dla LLM, zwłaszcza tych open-source, takich jak Llama, Mixtral i Gemma. W tym blogu zbadamy, co sprawia, że Groq jest tak wyjątkowy i zagłębimy się w cud stojący za LPU.

Czym jest Groq?

“Misją Groq jest ustanowienie standardu szybkości wnioskowania GenAI, pomagając aplikacjom AI w czasie rzeczywistym już dziś”. – Strona internetowa Groq

Groq nie jest firmą, która rozwija LLM jak GPT czy Gemini. Zamiast tego Groq koncentruje się na ulepszaniu fundamentów tych dużych modeli językowych – sprzętu, na którym działają. Służy jako “silnik wnioskowania”. Obecnie większość dostępnych na rynku rozwiązań LLM wykorzystuje tradycyjne procesory graficzne wdrożone na prywatnych serwerach lub w chmurze. Chociaż te procesory graficzne są drogie i wydajne, pochodzą od firm takich jak Nvidia, nadal opierają się na tradycyjnej architekturze GPU, która może nie być optymalnie dostosowana do wnioskowania LLM (choć pozostają one wydajne i preferowane do trenowania modeli).

Silnik wnioskowania dostarczany przez Groq działa na jednostkach LPU – Language Processing Units.

Co to jest LPU?

Language Processing Unit to układ zaprojektowany specjalnie dla LLM i zbudowany w oparciu o unikalną architekturę łączącą CPU i GPU, aby zmienić tempo, przewidywalność, wydajność i dokładność rozwiązań AI dla LLM.

Kluczowe atrybuty systemu LPU. Kredyty: Groq

System LPU ma tyle samo lub więcej mocy obliczeniowej co procesor graficzny (GPU) i skraca czas obliczania każdego słowa, umożliwiając szybsze generowanie sekwencji tekstowych.

Cechy silnika wnioskowania LPU wymienione na stronie internetowej Groq:

Wyjątkowa wydajność sekwencyjna
Architektura jednordzeniowa
Synchroniczne połączenie sieciowe utrzymywane nawet w przypadku wdrożeń na dużą skalę
Możliwość automatycznej kompilacji >50B LLMs
Natychmiastowy dostęp do pamięci
Wysoka dokładność utrzymywana nawet przy niższych poziomach precyzji

Usługi świadczone przez Groq:

GroqCloud: LPU w chmurze
GroqRack: stelaż 42U z maksymalnie 64 połączonymi chipami
GroqNode: Skalowalny system obliczeniowy 4U z ośmioma połączonymi akceleratorami GroqCard™.
GroqCard: Pojedynczy układ w standardowej obudowie PCIe Gen 4×16 zapewniający bezproblemową integrację z serwerem

“W przeciwieństwie do CPU, który został zaprojektowany do wykonywania zupełnie innego rodzaju zadań niż sztuczna inteligencja, lub GPU, który został zaprojektowany w oparciu o CPU, aby zrobić coś w rodzaju sztucznej inteligencji przez przypadek, lub TPU, który zmodyfikował GPU, aby uczynić go lepszym dla sztucznej inteligencji, Groq jest od podstaw, od pierwszych zasad, systemem komputerowym dla sztucznej inteligencji” – Daniel Warfield, Towards Data Science

Aby dowiedzieć się więcej o tym, czym LPU różnią się od GPU, TPU i CPU, zalecamy przeczytanie tego obszernego artykułu napisanego przez Daniela Warfielda dla Towards Data Science.

Jaki jest sens Groq?

Maszyny LLM są niezwykle potężne, zdolne do wykonywania różnych zadań, od analizowania nieustrukturyzowanych danych po odpowiadanie na pytania dotyczące słodkości kotów. Jednak ich główną wadą jest obecnie czas reakcji. Wolniejszy czas reakcji prowadzi do znacznych opóźnień podczas korzystania z LLM w procesach backendowych. Na przykład pobieranie danych z bazy danych i wyświetlanie ich w formacie JSON jest obecnie znacznie szybsze, gdy odbywa się przy użyciu tradycyjnej logiki, a nie przekazywania danych przez LLM do transformacji. Zaletą LLM jest jednak ich zdolność do rozumienia i obsługi wyjątków danych.

Dzięki niesamowitej szybkości wnioskowania oferowanej przez Groq, ta wada LLM może zostać znacznie zmniejszona. Otwiera to lepsze i szersze zastosowania dla LLM i obniża koszty, ponieważ dzięki LPU będziesz w stanie wdrożyć modele open-source, które są znacznie tańsze w eksploatacji z naprawdę krótkim czasem reakcji.

Llama 3 na Groq

Kilka tygodni temu Meta zaprezentowała najnowszą wersję już potężnego i wysoce wydajnego oprogramowania open-source LLM-Llama 3. Oprócz typowych ulepszeń w zakresie szybkości, rozumienia danych i generowania tokenów, wyróżniają się dwa znaczące ulepszenia:

Przetrenowany na zbiorze danych 7 razy większym niż Llama 2, z 4 razy większą ilością kodu.
Podwojona długość kontekstu do 8000 tokenów.

Llama 2 była już potężnym open-source’owym LLM, ale dzięki tym dwóm aktualizacjom oczekuje się, że wydajność Llamy 3 znacznie wzrośnie.

Testy porównawcze Llama 3

Aby przetestować Llama 3, możesz skorzystać z Meta AI lub placu zabaw Groq. Zaprezentujemy wydajność Groq, testując go z Llama 3.

Plac zabaw Groq

Obecnie plac zabaw Groq oferuje bezpłatny dostęp do Gemma 7B, Llama 3 70B i 8B oraz Mixtral 8x7b. Plac zabaw umożliwia dostosowanie parametrów, takich jak temperatura, maksymalna liczba tokenów i przełączanie strumieniowania. Dodatkowo posiada dedykowany tryb JSON do generowania wyłącznie danych wyjściowych JSON.

Tylko 402 ms na wnioskowanie przy szybkości 901 tokenów/s

Przechodząc do najbardziej wpływowej domeny/aplikacji w mojej opinii, ekstrakcji i transformacji danych:

Poproszenie modelu o wyodrębnienie przydatnych informacji i dostarczenie JSON przy użyciu trybu JSON.

Ekstrakcja i transformacja do formatu JSON została zakończona w mniej niż pół sekundy.

Wnioski

Jak wykazano, Groq wyłonił się jako gracz zmieniający krajobraz LLM dzięki swojemu innowacyjnemu silnikowi wnioskowania LPU. Zaprezentowana tutaj szybka transformacja wskazuje na ogromny potencjał przyspieszenia aplikacji AI. Patrząc w przyszłość, można tylko spekulować na temat przyszłych innowacji Groq. Być może jednostka przetwarzania obrazu mogłaby zrewolucjonizować modele generowania obrazu, przyczyniając się do postępów w generowaniu wideo przez sztuczną inteligencję. Rzeczywiście, to ekscytująca przyszłość.

Patrząc w przyszłość, w miarę jak szkolenia LLM stają się coraz bardziej wydajne, potencjał posiadania spersonalizowanego ChatGPT, dostosowanego do danych użytkownika na urządzeniu lokalnym, staje się kuszącą perspektywą. Jedną z platform oferujących takie możliwości jest Cody, inteligentny asystent AI dostosowany do wspierania firm w różnych aspektach. Podobnie jak ChatGPT, Cody może zostać przeszkolony w zakresie danych biznesowych, zespołu, procesów i klientów, korzystając z unikalnej bazy wiedzy.

Dzięki Cody firmy mogą wykorzystać moc sztucznej inteligencji do stworzenia spersonalizowanego i inteligentnego asystenta, który zaspokaja ich potrzeby, co czyni go obiecującym dodatkiem do świata rozwiązań biznesowych opartych na sztucznej inteligencji.

5 najlepszych darmowych programów LLM Open Source w 2024 roku

Posted on April 2, 2024 by Om Kamath - Bez kategorii

Studia LLM są obecnie wszechobecne i nie trzeba ich nikomu przedstawiać. Niezależnie od tego, czy pracujesz w branży technologicznej, czy nie, istnieje duże prawdopodobieństwo, że spotkałeś się lub obecnie korzystasz z jakiejś formy LLM na co dzień. Najbardziej znane obecnie LLM to GPT od OpenAI, Claude od Anthropic i Gemini od Google.

Jednak te popularne LLM często działają jako systemy abstrakcyjne lub systemy typu black-box, budząc obawy o prywatność i przejrzystość danych. Aby zaradzić takim problemom, dostępnych jest kilka programów LLM typu open source, które pozwalają użytkownikom na spokojne wdrażanie ich na prywatnych komputerach lub serwerach.

Open source odnosi się do oprogramowania lub produktów dystrybuowanych z ich kodem źródłowym swobodnie dostępnym do wglądu, modyfikacji i dystrybucji. Ta dostępność umożliwia użytkownikom zrozumienie, ulepszanie i przyczynianie się do rozwoju oprogramowania.

Oto niektóre z najlepszych obecnie dostępnych programów LLM typu open source:

Llama 2

Llama 2 to LLM o otwartym kodzie źródłowym opracowany przez Meta, oferowany bezpłatnie do celów komercyjnych i badawczych. Modele Llama 2 są trenowane na dwóch bilionach tokenów i mają dwukrotnie dłuższy kontekst niż Llama 1.

Parametry modelu mają bezpośredni wpływ na jego zdolność do rozumienia tekstu, przy czym większe modele oferują lepszą wydajność kosztem zwiększonego rozmiaru i wymagań dotyczących zasobów.

Dostępne warianty: Parametry 7B, 13B i 70B

Okno kontekstowe: 4096 tokenów

Obsługiwane języki: Najlepiej działa w języku angielskim

Mixtral 8x7B

Mixtral 8x7B, opracowany przez Mistral AI, to LLM zawierający łącznie 46,7B parametrów. Pomimo swojego rozmiaru, zachowuje szybkość wnioskowania i koszt podobny do modeli o jedną trzecią mniejszych. Ten model Transformer Mixture of Experts (MoE) z dekoderem znacznie przewyższa LLama 2 i GPT-3.5 w niektórych testach porównawczych.

Dostępne warianty: Tiny, Small, Medium i Large (w kolejności od ekonomicznych do wysokowydajnych)

Okno kontekstowe: 32000 tokenów (na Mistral Large)

Obsługiwane języki: Angielski, francuski, hiszpański, niemiecki, włoski (na Mistral Large)

Sokół

Falcon, opracowany przez Technology Innovation Institute (TII) w Abu Dhabi, jest kolejnym wiodącym programem LLM typu open source. Po uruchomieniu Falcon 40B przez dwa miesiące utrzymywał pozycję nr 1 w rankingu Hugging Face dla dużych modeli językowych (LLM) typu open source. W wariancie 180B TII jeszcze bardziej zwiększa wiedzę modelu i możliwości rozumienia danych. Falcon 180B to super wydajny model językowy przeszkolony na 3,5 biliona tokenów.

Dostępne warianty: Falcon 40B i Falcon 180B

Okno kontekstowe: 4096 tokenów

Obsługiwane języki: Angielski, niemiecki, hiszpański, francuski, z ograniczoną obsługą włoskiego, portugalskiego, polskiego, holenderskiego, rumuńskiego, czeskiego, szwedzkiego.

BLOOM

BLOOM to autoregressive Large Language Model (LLM) opracowany przez Big Science. Wyszkolony na parametrach 176B, BLOOM doskonale radzi sobie z generowaniem kontynuacji tekstu z podpowiedzi przy użyciu ogromnych ilości danych tekstowych i zasobów obliczeniowych na skalę przemysłową.

Dostępne warianty: bloom-560m, bloom-1b1, bloom-1b7, bloom-3b, bloom-7b1, bloom 176B

Okno kontekstowe: 2048 tokenów

Obsługiwane języki: 46 języków naturalnych (z różną ilością danych, od 30% dla angielskiego do 0,00002% dla Chi Tumbuka)

Gemma

Gemma, najnowocześniejszy otwarty program LLM Google, jest kontynuacją sukcesu Gemini. Gemma to rodzina dużych modeli językowych (LLM) z otwartymi wagami, opracowana przez Google DeepMind na podstawie badań i technologii Gemini. Podczas gdy wagi modeli są swobodnie dostępne, szczegółowe warunki użytkowania, redystrybucji i własności wariantów mogą się różnić i mogą nie być oparte na licencji open-source.

Dostępne warianty: Gemma 2B i Gemma 7B

Okno kontekstowe: 8192 tokeny

Obsługiwane języki: Angielski

Wnioski

W Cody priorytetowo traktujemy podejście niezależne od modelu, jeśli chodzi o LLM, oferując platformę, która umożliwia tworzenie spersonalizowanych botów dostosowanych do unikalnego przypadku użycia. Dzięki szerokiej gamie dostępnych opcji LLM, nie jesteś ograniczony do jednego dostawcy, co daje Ci swobodę wyboru najlepiej dopasowanego do Twoich wymagań.

Dzięki Cody firmy mogą wykorzystać sztuczną inteligencję do opracowania inteligentnych asystentów dostosowanych do ich konkretnych potrzeb. Ta elastyczność sprawia, że Cody jest obiecującym dodatkiem do sfery rozwiązań biznesowych opartych na sztucznej inteligencji.