Om Kamath, Author at Cody - The AI Trained on Your Business

Gemini Embedding 2: Das erste multimodale Einbettungsmodell von Google

Om Kamath — Tue, 24 Mar 2026 03:02:17 +0000

Gemini Embedding 2: Funktionen, Benchmarks, Preise und wie man anfängt

Letzte Woche veröffentlichte Google Zwillinge Embedding 2, das erste nativ multimodale Einbettungsmodell, das auf der Gemini-Architektur basiert. Wenn Sie in irgendeiner Weise mit Einbettungen arbeiten, verdient dies Ihre Aufmerksamkeit. Es hat das Potenzial, die Multi-Modell-Einbettungspipelines, auf die sich die meisten Teams heute verlassen, erheblich zu stören.

Bis jetzt waren die führenden Einbettungsmodelle von OpenAI, Cohere und Voyage hauptsächlich textbasiert. Es gab zwar ein paar multimodale Optionen – CLIP für den Abgleich von Bild und Text, Voyage Multimodal 3.5 für Bilder und Videos – aber keine deckte das gesamte Spektrum der Modalitäten in einem einzigen, einheitlichen Vektorraum ab. Audio musste in der Regel vor der Einbettung transkribiert werden. Video erforderte eine Frame-Extraktion in Kombination mit separaten Transkript-Einbettungen. Bilder lebten in einem ganz eigenen Vektorraum.

Gemini Embedding 2 ändert diese Gleichung. Ein Modell, ein API-Aufruf, ein Vektorraum.

Schauen wir uns an, was es Neues gibt.

Was ist Gemini Embedding 2?

Gemini Embedding 2 (gemini-embedding-2-preview) ist das erste vollständig multimodale Einbettungsmodell von Google DeepMind. Es nimmt Texte, Bilder, Videoclips, Audioaufnahmen und PDF-Dokumente und wandelt sie alle in Vektoren um, die im selben gemeinsamen semantischen Raum leben.

Im Gegensatz zu früheren multimodalen Ansätzen wie CLIP, die einen Bildverarbeitungs-Encoder mit einem Text-Encoder koppeln und sie am Ende mit kontrastivem Lernen abgleichen, baut Gemini Embedding 2 auf dem Gemini-Grundmodell selbst auf. Das bedeutet, dass es von Grund auf ein tiefes cross-modales Verständnis besitzt.

Mit Nano Banana erzeugtes Bild

Praktisches Beispiel: Stellen Sie sich vor, Sie bauen ein Learning Management System (LMS) mit Videotutorials, Audiovorträgen und schriftlichen Anleitungen auf. Mit Gemini Embedding 2 können Sie Einbettungen für all diese Inhalte in einem einzigen Vektorraum speichern und einen RAG-basierten Chatbot erstellen, der relevante Teile von Videos, Audios und Dokumenten gleichermaßen abruft. Zuvor war dafür eine mehrstufige Einbettungspipeline erforderlich – und selbst dann wurden nur Transkripte erfasst, ohne den visuellen Kontext eines Videos oder den Tonfall eines Sprechers.

Das Modell verwendet Matrjoschka Representation Learning, d.h. Sie müssen nicht alle 3072 Dimensionen verwenden, wenn Sie sie nicht brauchen. Sie können auf 1536 oder 768 verkleinern und erhalten trotzdem brauchbare Ergebnisse.

Matryoshka Representation Learning (MRL) ist eine Technik zum Trainieren von Einbettungsmodellen, so dass die erlernten Darstellungen nicht nur in ihrer vollen Dimensionalität, sondern auch in verschiedenen kleineren Dimensionen nützlich sind – ineinander verschachtelt wie russische Matryoshka-Puppen. Während des Trainings wird die Verlustfunktion nicht nur für die vollständige Einbettung berechnet, sondern auch für mehrere Präfixe des Einbettungsvektors. Dadurch wird das Modell ermutigt, die wichtigsten Informationen in die ersten Dimensionen zu packen, wobei jede nachfolgende Dimension feinere Details hinzufügt – eine Grob-zu-Fein-Struktur.

Unterstützte Modalitäten & Eingabebeschränkungen

Das Modell akzeptiert fünf Arten von Eingaben, die alle auf denselben Einbettungsraum abgebildet werden:

Modalität	Eingabe Grenze	Formate
Text	Bis zu 8.192 Token	Einfacher Text
Bilder	Bis zu 6 Bilder pro Anfrage	PNG, JPEG
Video	Bis zu 120 Sekunden	MP4, MOV
Audio	Bis zu 80 Sekunden (nativ, keine Transkription)	MP3, WAV
PDFs	Direkt eingebettete	PDF-Dokumente

Im Vergleich zu bestehenden Modellen

TLDR: Das neue Gemini Embedding 2 Modell von Google übertrifft seine Konkurrenten (seinen eigenen Vorgänger, Amazon Nova 2 und Voyage Multimodal 3.5) in fast jeder Modalität: Text, Bild, Video und Sprache. Am überzeugendsten ist der Vorsprung beim Abrufen von Videos und beim Bild-Text-Abgleich. Der einzige Benchmark, bei dem es nicht gewinnt, ist die Dokumentensuche, bei der Voyage leicht vorne liegt. Die Abfrage von Sprachtexten ist eine Kategorie, die Gemini allein gehört, da kein Konkurrent sie unterstützt.

Google hat Benchmark-Vergleiche mit seinen eigenen Legacy-Modellen, Amazon Nova 2 Multimodal Embeddings und Voyage Multimodal 3.5 veröffentlicht. Hier ist das vollständige Bild:

Text-Text

Metrisch	Gemini Einbettung 2	gemini-einbettung-001	Amazon Nova 2	Voyage Multimodal 3.5
MTEB Mehrsprachig (Mittlere Aufgabe)	69.9	68.4	63.8**	58.5***
MTEB Code (Mittlere Aufgabe)	84.0	76.0	*	*

Gemini Embedding 2 liegt bei mehrsprachigem Text mit einem komfortablen Vorsprung vorn und übertrifft seinen Vorgänger bei der Code-Suche um 8 Punkte. Weder Amazon Nova 2 noch Voyage melden Code-Ergebnisse.

Text-Bild

Metrisch	Zwillingseinbettung 2	multimodale Einbettung@001	Amazon Nova 2	Voyage Multimodal 3.5
TextCaps (Abruf@1)	89.6	74.0	76.0	79.4
Docci (Rückruf@1)	93.4	–	84.0	83.8

Ein klarer Vorsprung bei der Text-zu-Bild-Suche – über 9 Punkte Vorsprung vor dem nächsten Mitbewerber bei beiden Benchmarks.

Bild-Text

Metrisch	Zwillingseinbettung 2	multimodale Einbettung@001	Amazon Nova 2	Voyage Multimodal 3.5
TextCaps (Rückruf@1)	97.4	88.1	88.9	88.6
Docci (Rückruf@1)	91.3	–	76.5	77.4

Bei der Bild-zu-Text-Suche ist der Abstand am größten – fast 15 Punkte vor Amazon Nova 2 auf Docci.

Textdokumente

Metrisch	Zwillingseinbettung 2	multimodale Einbettung@001	Amazon Nova 2	Voyage Multimodal 3.5
ViDoRe v2 (ndcg@10)	64.9	28.9	60.6	65.5**

Der einzige Benchmark, bei dem Voyage Multimodal 3.5 die Nase vorn hat (Selbstauskunft). Bei der Dokumentensuche liegen die Top-Modelle dicht beieinander.

Text-Video

Metrisch	Zwillingseinbettung 2	multimodale Einbettung@001	Amazon Nova 2	Voyage Multimodal 3.5
Vatex (ndcg@10)	68.8	54.9	60.3	55.2
MSR-VTT (ndcg@10)	68.0	57.9	67.0	63.0**
Youcook2 (ndcg@10)	52.5	34.9	34.7	31.4**

Beim Abrufen von Videos liegt Gemini Embedding 2 am weitesten vorne – über 17 Punkte vor Voyage auf Youcook2 und über 13 Punkte auf Vatex.

Sprache – Text

Metrisch	Zwillingseinbettung 2
MSEB (mrr@10)	73.9
MSEB ASR**** (mrr@10)	70.4

Die Abfrage von Sprachtexten ist völlig unumstritten – weder Amazon noch Voyage unterstützen sie. Dies ist eine Kategorie, die Gemini Embedding 2 vollständig beherrscht.

– Wertung nicht verfügbar ** Selbstauskunft *** voyage-3.5 **** ASR-Modell wandelt Audioanfragen in Text um

Preisgestaltung

Das Modell ist derzeit während der öffentlichen Vorschau kostenlos. Sobald Sie die kostenpflichtige Stufe erreicht haben, sehen Sie hier die Aufschlüsselung:

	Kostenloses Tier	Bezahlte Stufe (pro 1M Token)
Texteingabe	Kostenfrei	$0.20
Bild-Eingabe	Kostenfrei	$0,45 ($0,00012 pro Bild)
Audio-Eingang	Kostenfrei	$6,50 ($0,00016 pro Sekunde)
Video-Eingang	Kostenfrei	$12.00 ($0.00079 pro Bild)
Wird zur Verbesserung der Google-Produkte verwendet	Ja	Nein

Erste Schritte

Das Modell ist jetzt in der öffentlichen Vorschau über die Gemini API und Vertex AI unter der Modell-ID gemini-embedding-2-preview. Es lässt sich mit LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB und Vector Search integrieren.

from google import genai
from google.genai import types

# For Vertex AI:
# PROJECT_ID=''
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')

client = genai.Client()

with open("example.png", "rb") as f:
    image_bytes = f.read()

with open("sample.mp3", "rb") as f:
    audio_bytes = f.read()

# Embed text, image, and audio 
result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type="image/png",
        ),
        types.Part.from_bytes(
            data=audio_bytes,
            mime_type="audio/mpeg",
        ),
    ],
)

print(result.embeddings)

Probieren Sie es hier aus!

Wir haben eine Demo-App erstellt, mit der Sie die multimodale Abrufleistung von gemini-embedding-2 testen können.

Sie können den API-Schlüssel erhalten, indem Sie sich bei aistudio.google.com anmelden.

Zu beachtende Beschränkungen

Das Modell befindet sich noch in der öffentlichen Vorschau (das Etikett “Vorschau” bedeutet, dass sich die Preise und das Verhalten vor der GA ändern können).
Der Videoeingang ist auf 120 Sekunden und der Audioeingang auf 80 Sekunden begrenzt.
Die Leistung in Nischenbereichen wie der Finanz-QS ist schwächer; bewerten Sie sie anhand Ihrer spezifischen Daten, bevor Sie sich festlegen.
Bei reinen Text-Pipelines ohne multimodale Pläne ist der Kostenaufschlag gegenüber reinen Textmodellen möglicherweise nicht gerechtfertigt.

Die Quintessenz

Gemini Embedding 2 ist nicht nur eine schrittweise Verbesserung, sondern ein Wechsel der Kategorie. Für Teams, die multimodale RAG-Systeme, eine medienübergreifende semantische Suche oder vereinheitlichte Wissensdatenbanken aufbauen, wird das, was früher ein Problem mit mehreren Modellen und Pipelines war, zu einem einzigen API-Aufruf zusammengefasst. Wenn Ihre Daten mehr als nur Text umfassen, ist dies das Modell, das Sie zuerst testen sollten.

Multimodale RAG zu erstellen sollte nicht bedeuten, dass Sie Einbettungsmodelle, Vektordatenbanken und Abfragelogik von Grund auf neu zusammensetzen müssen. Wenn Sie eine verwaltete RAG-as-a-Service-Lösung wünschen, die die Einbettungspipeline für Sie übernimmt, melden Sie sich für die kostenlose Testversion bei Cody an und beginnen Sie noch heute mit der Erstellung.

The post Gemini Embedding 2: Das erste multimodale Einbettungsmodell von Google appeared first on Cody - The AI Trained on Your Business.

Gemini 2.5 Pro und GPT-4.5: Wer führt die KI-Revolution an?

Om Kamath — Wed, 26 Mar 2025 15:36:01 +0000

Im Jahr 2025 ist die Welt der künstlichen Intelligenz sehr aufregend geworden. Die großen Technologieunternehmen liefern sich einen erbitterten Wettbewerb, um die fortschrittlichsten KI-Systeme aller Zeiten zu entwickeln. Dieser intensive Wettbewerb hat viele neue Ideen hervorgebracht und die Grenzen dessen, was KI beim Denken, beim Lösen von Problemen und bei der Interaktion mit dem Menschen leisten kann, verschoben. In den letzten Monaten gab es erstaunliche Verbesserungen, wobei zwei Hauptakteure den Weg geebnet haben: Googles Gemini 2.5 Pro und OpenAIs GPT-4.5. In einer großen Enthüllung im März 2025 stellte Google Gemini 2.5 Pro vor, das sie als ihre bisher intelligenteste Kreation bezeichnen. Es wurde schnell zum Spitzenreiter in der LMArena-Rangliste und ließ seine Konkurrenten hinter sich. Das Besondere an Gemini 2.5 ist seine Fähigkeit, Antworten sorgfältig abzuwägen, wodurch er bei komplexen Aufgaben, die tiefes Denken erfordern, besser abschneidet.

Um nicht ins Hintertreffen zu geraten, hat OpenAI GPT-4.5 auf den Markt gebracht, ihr bisher größtes und fortschrittlichstes Chat-Modell. Dieses Modell ist hervorragend darin, Muster zu erkennen, Verbindungen herzustellen und kreative Ideen zu entwickeln. Erste Tests zeigen, dass sich die Interaktion mit GPT-4.5 sehr natürlich anfühlt, da es über ein breites Wissen verfügt und besser versteht, was die Benutzer meinen. OpenAI hebt die signifikanten Verbesserungen von GPT-4.5 beim Lernen ohne direkte Aufsicht hervor, die für eine reibungslose Zusammenarbeit mit Menschen entwickelt wurden.

Diese KI-Systeme sind nicht nur eine beeindruckende Technologie, sie verändern auch die Art und Weise, wie Unternehmen arbeiten, beschleunigen wissenschaftliche Entdeckungen und transformieren kreative Projekte. Während KI ein normaler Bestandteil des täglichen Lebens wird, erweitern Modelle wie Gemini 2.5 Pro und GPT-4.5 das, was wir für möglich halten. Mit besseren Denkfähigkeiten, einer geringeren Wahrscheinlichkeit, falsche Informationen zu verbreiten, und der Beherrschung komplexer Probleme ebnen sie den Weg für KI-Systeme, die den menschlichen Fortschritt wirklich unterstützen.

Verstehen von Gemini 2.5 Pro

Am 25. März 2025 stellte Google offiziell Gemini 2.5 Pro vor, das als sein bisher “intelligentestes KI-Modell” bezeichnet wird. Diese Veröffentlichung markiert einen bedeutenden Meilenstein in der KI-Entwicklung von Google, nachdem mehrere Iterationen der 2.0-Modelle erfolgt waren. Die Veröffentlichungsstrategie begann zunächst mit der experimentellen Version, die den Abonnenten von Gemini Advanced einen frühen Zugang zum Testen der Fähigkeiten ermöglichte.

Was Gemini 2.5 Pro von seinen Vorgängern unterscheidet, ist seine grundlegende Architektur als“Denkmodell”. Im Gegensatz zu früheren Generationen, die sich in erster Linie auf trainierte Datenmuster stützten, kann dieses Modell aktiv über seine Gedanken nachdenken, bevor es antwortet, und so menschliche Problemlösungsprozesse imitieren. Dies ist ein bedeutender Fortschritt in der Art und Weise, wie KI-Systeme Informationen verarbeiten und Antworten erzeugen.

Hauptmerkmale und Funktionen:

Verbessertes logisches Denken – Fähigkeit zur schrittweisen Problemlösung in komplexen Bereichen
Erweitertes Kontext-Fenster – 1 Million Token-Kapazität (mit Plänen zur Erweiterung auf 2 Millionen)
Native Multimodalität – Nahtlose Verarbeitung von Text, Bildern, Audio, Video und Code
Erweiterte Code-Funktionen – Signifikante Verbesserungen bei der Erstellung von Webanwendungen und der Codeumwandlung

Gemini 2.5 Pro hat sich als Leistungsführer etabliert und steht erstmals auf Platz 1 der LMArena-Bestenliste. Es zeichnet sich besonders bei Benchmarks aus, die fortgeschrittenes logisches Denken erfordern, und erzielte bei Humanity’s Last Exam ohne externe Hilfsmittel ein branchenführendes Ergebnis von 18,8%. In den Bereichen Mathematik und Naturwissenschaften beweist er eine bemerkenswerte Kompetenz mit Ergebnissen von 86,7% bei AIME 2025 bzw. 79,7% bei GPQA diamond.

Im Vergleich zu früheren Gemini-Modellen stellt die Version 2.5 Pro einen erheblichen Sprung nach vorn dar. Während Gemini 2.0 wichtige grundlegende Fähigkeiten einführte, kombiniert 2.5 Pro ein deutlich verbessertes Basismodell mit verbesserten Post-Training-Techniken. Die bemerkenswertesten Verbesserungen zeigen sich bei der Kodierleistung, der Argumentationstiefe und dem kontextuellen Verständnis – Bereiche, in denen frühere Versionen Einschränkungen aufwiesen.

GPT-4.5 erforschen

Im April 2025 stellte OpenAI GPT-4.5 vor und bezeichnete es als sein “bisher größtes und fortschrittlichstes Chat-Modell”, was eine bemerkenswerte Leistung in der Entwicklung großer Sprachmodelle darstellt. Diese Forschungsvorschau löste in der KI-Gemeinschaft sofort Begeisterung aus. Erste Tests zeigten, dass sich die Interaktionen mit dem Modell dank seiner umfangreichen Wissensbasis und seiner verbesserten Fähigkeit, die Absicht des Benutzers zu verstehen, außergewöhnlich natürlich anfühlen.

GPT-4.5 zeigt bedeutende Fortschritte bei den unüberwachten Lernfähigkeiten. OpenAI hat diesen Fortschritt durch die Skalierung der Rechenleistung und des Dateninputs sowie durch den Einsatz innovativer Architektur- und Optimierungsstrategien erzielt. Das Modell wurde auf Microsoft Azure KI-Supercomputern trainiert, womit eine Partnerschaft fortgesetzt wird, die es OpenAI ermöglicht, die Grenzen des Möglichen zu erweitern.

Kernverbesserungen und -fähigkeiten:

Verbesserte Mustererkennung – Erheblich verbesserte Fähigkeit, Muster zu erkennen, Verbindungen herzustellen und kreative Einsichten zu gewinnen
Weniger Halluzinationen – Geringere Wahrscheinlichkeit der Erzeugung falscher Informationen im Vergleich zu früheren Modellen wie GPT-4o und o1
Verbesserter “EQ” – Größere emotionale Intelligenz und Verständnis für nuancierte menschliche Interaktionen
Erweiterte Steuerbarkeit – Besseres Verständnis und Befolgung komplexer Benutzeranweisungen

OpenAI hat besonderen Wert darauf gelegt, GPT-4.5 für die menschliche Zusammenarbeit zu trainieren. Neue Techniken verbessern die Steuerbarkeit des Modells, das Verständnis für Nuancen und den natürlichen Gesprächsfluss. Das macht es besonders effektiv in der Schreib- und Designunterstützung, wo es eine stärkere ästhetische Intuition und Kreativität zeigt als frühere Versionen.

In realen Anwendungen zeigt GPT-4.5 eine bemerkenswerte Vielseitigkeit. Dank seiner erweiterten Wissensbasis und verbesserten Argumentationsfähigkeiten eignet es sich für eine breite Palette von Aufgaben, von der detaillierten Erstellung von Inhalten bis hin zu anspruchsvollen Problemlösungen. Der CEO von OpenAI, Sam Altman, hat das Modell positiv beschrieben und seine “einzigartige Effektivität” hervorgehoben, obwohl es nicht in allen Benchmark-Kategorien führend ist.

Die Einführungsstrategie für GPT-4.5 spiegelt den maßvollen Ansatz von OpenAI bei der Veröffentlichung leistungsstarker KI-Systeme wider. Zunächst steht es ChatGPT Pro-Abonnenten und Entwicklern auf kostenpflichtigen Ebenen über verschiedene APIs zur Verfügung. Das Unternehmen plant, den Zugang schrittweise auf ChatGPT Plus-, Team-, Edu- und Enterprise-Abonnenten auszuweiten. Diese schrittweise Einführung ermöglicht es OpenAI, die Leistung und Sicherheit zu überwachen, wenn die Nutzung zunimmt.

Leistungsmetriken: Eine vergleichende Analyse

Bei der Untersuchung der technischen Fähigkeiten dieser fortschrittlichen KI-Modelle ist die Benchmark-Leistung der objektivste Maßstab für ihre Fähigkeiten. Gemini 2.5 Pro und GPT-4.5 zeigen jeweils einzigartige Stärken in verschiedenen Bereichen, wobei Benchmark-Tests ihre deutlichen Vorteile offenbaren.

Benchmark	Gemini 2.5 Pro (03-25)	OpenAI GPT-4.5	Claude 3.7 Sonnet	Grok 3 Vorschau
LMArena (Gesamt)	#1	2	21	2
Die letzte Prüfung der Menschheit (Keine Werkzeuge)	18.8%	6.4%	8.9%	–
GPQA Diamant (Einzelversuch)	84.0%	71.4%	78.2%	80.2%
AIME 2025 (Einzelversuch)	86.7%	–	49.5%	77.3%
SWE-Bench Verifiziert	63.8%	38.0%	70.3%	–
Aider Polyglot (Ganzes/Diff)	74.0% / 68.6%	44.9% diff	64,9% diff	–
MRCR (128k)	91.5%	48.8%	–	–

Gemini 2.5 Pro zeigt eine außergewöhnliche Stärke bei schlussfolgernden Aufgaben, insbesondere beim Denken in langen Zusammenhängen und beim Behalten von Wissen. Bei der letzten Prüfung der Menschheit, bei der die Grenzen des menschlichen Wissens getestet werden, übertrifft er die Konkurrenz deutlich. Allerdings zeigt es relative Schwächen bei der Codegenerierung und der agentenbasierten Kodierung und kämpft gelegentlich mit der Faktizität in bestimmten Bereichen.

GPT-4.5 hingegen zeigt besondere Exzellenz bei der Mustererkennung, der Generierung kreativer Erkenntnisse und dem wissenschaftlichen Denken. Es schneidet im GPQA-Diamant-Benchmark am besten ab und zeigt starke Fähigkeiten in wissenschaftlichen Domänen. Das Modell weist auch eine verbesserte emotionale Intelligenz und ästhetische Intuition auf, was es für kreative und designorientierte Anwendungen besonders wertvoll macht. Ein entscheidender Vorteil ist die geringere Tendenz zur Generierung falscher Informationen im Vergleich zu seinen Vorgängern.

In der Praxis ist Gemini 2.5 Pro die beste Wahl für Aufgaben, die tiefes logisches Denken, multimodales Verstehen und den Umgang mit extrem langen Kontexten erfordern. GPT-4.5 bietet Vorteile bei der kreativen Arbeit, bei der Designunterstützung und bei Anwendungen, bei denen sachliche Präzision und ein natürlicher Gesprächsfluss von größter Bedeutung sind.

Anwendungen und Anwendungsfälle

Während die Benchmark-Leistungen wertvolle technische Erkenntnisse liefern, liegt der wahre Maßstab für diese fortschrittlichen KI-Modelle in ihren praktischen Anwendungen in verschiedenen Bereichen. Sowohl Gemini 2.5 Pro als auch GPT-4.5 weisen unterschiedliche Stärken auf, die sie für verschiedene Anwendungsfälle geeignet machen. Unternehmen haben bereits damit begonnen, ihre Fähigkeiten zur Lösung komplexer Probleme zu nutzen.

Gemini 2.5 Pro in wissenschaftlichen und technischen Bereichen

Die außergewöhnlichen Argumentationsfähigkeiten und das umfangreiche Kontextfenster von Gemini 2.5 Pro machen es besonders wertvoll für wissenschaftliche Forschung und technische Anwendungen. Seine Fähigkeit, multimodale Daten – einschließlich Text, Bilder, Audio, Video und Code – zu verarbeiten und zu analysieren, ermöglicht es, komplexe Probleme zu bewältigen, die eine Synthese von Informationen aus verschiedenen Quellen erfordern. Diese Vielseitigkeit eröffnet zahlreiche Möglichkeiten in Branchen, die technische Präzision und umfassende Analysen erfordern.

Wissenschaftliche Forschung und Datenanalyse – Die starke Leistung von Gemini 2.5 Pro bei Benchmarks wie GPQA (79,7%) zeigt, dass es Forschern bei der Analyse komplexer wissenschaftlicher Literatur, der Erstellung von Hypothesen und der Interpretation von Versuchsergebnissen helfen kann.
Software-Entwicklung und -Engineering – Das Modell zeichnet sich durch die Erstellung von Webanwendungen, die Durchführung von Code-Transformationen und die Entwicklung komplexer Programme aus (63,8% im SWE-Bench Verified unter Verwendung benutzerdefinierter Agenten-Setups).
Medizinische Diagnose und Gesundheitsfürsorge – Seine Schlussfolgerungsfunktionen ermöglichen die Analyse medizinischer Bilder zusammen mit Patientendaten, um medizinisches Fachpersonal bei Diagnoseprozessen zu unterstützen.
Big Data-Analysen und Wissensmanagement – Das Kontextfenster mit 1 Million Token (bald auf 2 Millionen erweiterbar) ermöglicht die Verarbeitung ganzer Datensätze und Code-Repositories in einer einzigen Eingabeaufforderung

GPT-4.5’s Exzellenz in kreativen und kommunikativen Aufgaben

Im Gegensatz dazu zeigt GPT-4.5 eine besondere Stärke bei Aufgaben, die eine nuancierte Kommunikation, kreatives Denken und ästhetisches Urteilsvermögen erfordern. OpenAI hat dieses Modell speziell für die menschliche Zusammenarbeit trainiert, was zu verbesserten Fähigkeiten bei der Erstellung von Inhalten, der Designunterstützung und der natürlichen Kommunikation führt.

Erstellung von Inhalten und Schreiben – GPT-4.5 zeigt ein verbessertes ästhetisches Gespür und Kreativität, was es für die Erstellung von Marketingtexten, Artikeln, Drehbüchern und anderen schriftlichen Inhalten wertvoll macht.
Zusammenarbeit beim Design – Das verbesserte Verständnis von Nuancen und Kontexten macht das Modell zu einem effektiven Partner in Designprozessen, von der Konzeption bis zur Verfeinerung
Kundenengagement – Mit einer größeren emotionalen Intelligenz bietet GPT-4.5 angemessenere und natürlichere Reaktionen im Kundenservice.
Entwicklung von Bildungsinhalten – Das Modell eignet sich hervorragend, um Erklärungen auf unterschiedliche Wissensstände und Lernstile abzustimmen.

Unternehmen aus verschiedenen Branchen integrieren diese Modelle bereits in ihre Arbeitsabläufe. Microsoft hat die Technologie von OpenAI direkt in seine Produktsuite integriert, so dass Unternehmensanwender unmittelbaren Zugang zu den Fähigkeiten von GPT-4.5 haben. In ähnlicher Weise findet Googles Gemini 2.5 Pro Anwendung in Forschungsinstituten und Technologieunternehmen, die seine Stärken im Bereich des Denkens und der Multimodalität nutzen wollen.

Die komplementären Stärken dieser Modelle lassen vermuten, dass viele Unternehmen je nach Anwendungsfall von der Nutzung beider Modelle profitieren können. Mit der weiteren Reifung dieser Technologien können wir mit immer ausgefeilteren Anwendungen rechnen, die Wissensarbeit, kreative Prozesse und Problemlösungen in allen Branchen grundlegend verändern.

Die Zukunft der KI: Was kommt als Nächstes?

Während Gemini 2.5 Pro und GPT-4.5 die Grenzen des Machbaren verschieben, wird die zukünftige Entwicklung der KI immer deutlicher. Das Engagement von Google, “Denkfähigkeiten direkt in alle Modelle einzubauen”, deutet auf eine Zukunft hin, in der logisches Denken zum Standard in allen KI-Systemen wird. Auch der Ansatz von OpenAI, “unüberwachtes Lernen und schlussfolgerndes Denken zu skalieren”, deutet auf Modelle hin, deren Fähigkeiten, menschenähnliche Inhalte zu verstehen und zu generieren, ständig zunehmen.

In den kommenden Jahren werden wir wahrscheinlich KI-Modelle sehen, deren Kontextfenster über die derzeitigen Grenzen hinaus dramatisch erweitert werden, die anspruchsvollere Schlussfolgerungen ziehen und die nahtlose Integration über alle Modalitäten hinweg ermöglichen. Wir könnten auch den Aufstieg wirklich autonomer KI-Agenten erleben, die in der Lage sind, komplexe Aufgaben mit minimaler menschlicher Aufsicht auszuführen. Diese Fortschritte bringen jedoch auch erhebliche Herausforderungen mit sich. In dem Maße, in dem die KI-Fähigkeiten zunehmen, wird es auch immer wichtiger, potenzielle Risiken in Bezug auf Fehlinformationen, Datenschutz und die Verdrängung menschlicher Arbeitskraft zu bewältigen.

Ethische Überlegungen müssen bei der Entwicklung von KI an vorderster Front stehen. OpenAI erkennt an, dass “jede Steigerung der Modellfähigkeiten eine Gelegenheit ist, die Modelle sicherer zu machen”, und betont die doppelte Verantwortung für Fortschritt und Schutz. Die KI-Gemeinschaft muss robuste Governance-Rahmenwerke entwickeln, die Innovationen fördern und gleichzeitig vor Missbrauch schützen.

Die KI-Revolution, für die Gemini 2.5 Pro und GPT-4.5 stehen, steht erst am Anfang. Während das Tempo des Fortschritts sowohl Aufregung als auch Besorgnis hervorruft, ist eines klar: Die Zukunft der KI wird nicht nur durch die technologischen Fähigkeiten definiert, sondern auch dadurch, wie wir sie zum Nutzen der Menschen einsetzen. Wenn wir einer verantwortungsvollen Entwicklung den Vorrang geben, die das menschliche Potenzial erweitert, anstatt es zu ersetzen, können wir sicherstellen, dass die nächste Generation von KI-Modellen als leistungsstarke Werkzeuge für den kollektiven Fortschritt dienen.

The post Gemini 2.5 Pro und GPT-4.5: Wer führt die KI-Revolution an? appeared first on Cody - The AI Trained on Your Business.

GPT-4.5 gegen Claude 3.7 Sonnet: Ein tiefes Eintauchen in die KI-Fortschritte

Om Kamath — Sun, 02 Mar 2025 15:52:48 +0000

Die Landschaft der künstlichen Intelligenz entwickelt sich schnell weiter, wobei zwei aktuelle Modelle besonders hervorstechen: GPT-4.5 und Claude 3.7 Sonnet. Diese fortschrittlichen Sprachmodelle stellen bedeutende Sprünge in den KI-Fähigkeiten dar und bringen jeweils einzigartige Stärken mit sich.

GPT-4.5 von OpenAI ist zwar nur ein kleines Update, bietet aber Verbesserungen bei der Reduzierung von Halluzinationen und der Verbesserung der natürlichen Konversation. Auf der anderen Seite hat Anthropics Claude 3.7 Sonnet Aufmerksamkeit für seine außergewöhnlichen Kodierfähigkeiten und seine Kosteneffizienz erregt. Beide Modelle richten sich an ein breites Spektrum von Nutzern, von Entwicklern und Forschern bis hin zu Unternehmen, die innovative KI-Lösungen suchen.

Da diese Modelle die Grenzen des Machbaren in der KI verschieben, verändern sie die Erwartungen und Anwendungen in verschiedenen Branchen und schaffen die Voraussetzungen für weitere transformative Fortschritte in der nahen Zukunft.

Hauptmerkmale von GPT-4.5 und Claude 3.7 Sonnet

Sowohl GPT-4.5 als auch Claude 3.7 Sonnet bringen bedeutende Fortschritte in der KI-Landschaft, jede mit ihren eigenen Stärken. GPT-4.5, das als OpenAIs “größtes und kenntnisreichstes Modell bisher” beschrieben wird, konzentriert sich auf die Erweiterung des unüberwachten Lernens, um Wortwissen und Intuition zu verbessern und gleichzeitig Halluzinationen zu reduzieren. Dieses Modell zeichnet sich dadurch aus, dass es die Argumentationsfähigkeiten verbessert und die Chat-Interaktionen durch ein tieferes Kontextverständnis ergänzt.

Auf der anderen Seite führt Claude 3.7 Sonnet ein bahnbrechendes hybrides Denkmodell ein, das sowohl schnelle Antworten als auch erweitertes, schrittweises Denken ermöglicht. Es glänzt vor allem in den Bereichen Codierung und Front-End-Web-Entwicklung, wo es hervorragende Fähigkeiten zum Befolgen von Anweisungen und zum allgemeinen logischen Denken zeigt.

Wichtige Verbesserungen:

GPT-4.5: Verbessertes unüberwachtes Lernen und Konversationsfähigkeiten
Claude 3.7 Sonnet: Fortgeschrittenes hybrides Denken und überlegene Codierfähigkeiten
Beide Modelle: Verbesserte multimodale Fähigkeiten und adaptive Argumentation

Leistung und Bewertung

Aufgabe	GPT-4.5 (vs 4o)	Claude 3.7 Sonnet* (vs 3.5)
Codierung	Verbessert	Deutlich bessere Leistung als
Mathematik	Mäßige Verbesserung	Besser bei AIME’24 Problemen
Argumentation	Ähnliche Leistung	Ähnliche Leistung
Multimodal	Ähnliche Leistung	Ähnliche Leistung

* Ohne langes Nachdenken

GPT-4.5 hat bemerkenswerte Verbesserungen bei Chat-Interaktionen und weniger Halluzinationen gezeigt. Menschliche Tester haben ihn im Vergleich zu den Vorgängermodellen als genauer und sachlicher bewertet, was ihn zu einem zuverlässigeren Gesprächspartner macht.

Claude 3.7 Sonnet hingegen demonstriert außergewöhnliche Effizienz bei Echtzeitanwendungen und Codierungsaufgaben. Bei SWE-bench Verified und TAU-bench hat er die beste Leistung erzielt und damit seine Fähigkeiten bei der Softwareentwicklung und der Lösung komplexer Probleme unter Beweis gestellt. Darüber hinaus eignet er sich aufgrund seines höheren Durchsatzes im Vergleich zum GPT-4.5 besonders für Aufgaben, die schnelle Antworten und die Verarbeitung großer Datenmengen erfordern.

Quelle: Anthropic

Preisgestaltung und Zugänglichkeit

Der GPT-4.5 bietet zwar beeindruckende Funktionen, hat aber auch einen hohen Preis. Der Preis ist 75-mal höher als der seines Vorgängers GPT-4, ohne dass es eine klare Begründung für diese beträchtliche Erhöhung gibt. Diese Preisstrategie könnte dazu führen, dass viele potenzielle Nutzer nicht in den Genuss dieses Produkts kommen.

Im Gegensatz dazu bietet Claude 3.7 Sonnet eine günstigere Option. Seine Preisstruktur ist deutlich wettbewerbsfähiger:

25 Mal billiger für Eingabe-Token im Vergleich zu GPT-4.5
10 Mal billiger für Output-Token
Spezifische Preise: $3 pro Million Input-Token und $15 pro Million Output-Token

Was die Verfügbarkeit betrifft, so ist GPT-4.5 derzeit für GPT Pro-Nutzer und Entwickler über die API zugänglich. Es ist geplant, den Zugang auf Plus-Nutzer, Bildungseinrichtungen und Teams auszuweiten. Claude 3.7 Sonnet hingegen bietet einen breiteren Zugang über alle Claude-Tarife (Free, Pro, Team, Enterprise) sowie über die Anthropic API, Amazon Bedrock und die Vertex AI von Google Cloud.

Diese Unterschiede in der Preisgestaltung und Zugänglichkeit wirken sich erheblich auf die potenzielle Akzeptanz und die Anwendungsfälle für jedes Modell aus, wobei Claude 3.7 Sonnet aufgrund seiner Kosteneffizienz und breiteren Verfügbarkeit potenziell für eine größere Anzahl von Nutzern attraktiv ist.

Anwendungsfälle

Sowohl GPT-4.5 als auch Claude 3.7 Sonnet bieten einzigartige Funktionen, die sich für die verschiedensten Anwendungen in der Praxis eignen. GPT-4.5 zeichnet sich als fortschrittlicher Gesprächspartner aus, der seine Vorgängermodelle an Genauigkeit übertrifft und Halluzinationen reduziert. Sein verbessertes kontextbezogenes Verständnis macht es ideal für den Kundenservice, die Erstellung von Inhalten und personalisierte Lernerfahrungen.

Claude 3.7 Sonnet hingegen glänzt im Bereich der Kodierung und Softwareentwicklung. Seine agentenbasierten Kodierungsfunktionen, die durch Claude Code demonstriert werden, automatisieren Aufgaben wie die Suche nach Code, die Durchführung von Tests und die Verwendung von Befehlszeilentools. Dies macht es zu einem unschätzbaren Vorteil für Unternehmen, die ihre Entwicklungsprozesse rationalisieren möchten.

Zukunftsperspektiven und Fazit

Die Veröffentlichung von GPT-4.5 und Claude 3.7 Sonnet stellt einen wichtigen Meilenstein in der KI-Entwicklung dar und schafft die Voraussetzungen für weitere bahnbrechende Fortschritte. Während GPT-4.5 als ein kleines Update angesehen wird, legt es den Grundstein für zukünftige Modelle mit erweiterten Argumentationsfähigkeiten. Claude 3.7 Sonnet stellt mit seinem hybriden Denkmodell einen dynamischen Wandel in der KI-Landschaft dar, der die Richtung künftiger Entwicklungen beeinflussen könnte.

Im Zuge der Weiterentwicklung dieser Modelle können wir mit weiteren Verbesserungen beim unüberwachten Lernen, beim logischen Denken und bei aufgabenspezifischen Optimierungen rechnen. Die komplementäre Natur des unüberwachten Lernens und des logischen Denkens lässt vermuten, dass zukünftige KI-Modelle wahrscheinlich noch ausgefeiltere Problemlösungsfähigkeiten aufweisen werden.

The post GPT-4.5 gegen Claude 3.7 Sonnet: Ein tiefes Eintauchen in die KI-Fortschritte appeared first on Cody - The AI Trained on Your Business.

Perplexity Comet: Mutiger Sprung in die Agentensuche

Om Kamath — Thu, 27 Feb 2025 17:53:18 +0000

Perplexity, der KI-gestützte Suchmaschinengigant, schlägt mit seinem neuesten Projekt Wellen in der Tech-Welt: einem revolutionären Webbrowser namens Comet. Comet wird als “A Browser for Agentic Search by Perplexity” bezeichnet und stellt einen mutigen Schritt in den wettbewerbsorientierten Browsermarkt dar. Während Details über das Design und das Veröffentlichungsdatum noch geheim gehalten werden, hat das Unternehmen bereits eine Anmeldeliste veröffentlicht und verkündet, dass Comet “in Kürze” erscheinen wird.

Dieser Schritt fällt in eine Zeit bedeutenden Wachstums für Perplexity. Das Unternehmen, das mit beeindruckenden 9 Milliarden Dollar bewertet wird, verarbeitet derzeit wöchentlich über 100 Millionen Suchanfragen über seine Suchmaschine. Die Einführung von Comet zeigt, dass Perplexity seinen Einfluss über die Suche hinaus ausweiten und die Art und Weise, wie Nutzer mit dem Internet interagieren, verändern möchte. Comet wird ein zentrales Element in Perplexitys wachsendem digitalen Ökosystem werden.

Hauptmerkmale von Comet

Comet nutzt die “Agentic Search”, eine leistungsstarke Funktion, die eine autonome Aufgabenausführung ermöglicht. Das bedeutet, dass Benutzer komplexe Aufgaben wie die Buchung von Flügen oder die Verwaltung von Reservierungen an den Browser delegieren können, was die Produktivität erheblich steigert.

Comet basiert auf Chromium und gewährleistet eine plattformübergreifende Kompatibilität, die ein nahtloses Erlebnis auf Desktop- und Mobilgeräten ermöglicht. Dieses Design kombiniert die Stabilität etablierter Browsertechnologie mit den innovativen KI-Innovationen von Perplexity.

Tiefe Integration der Forschung: Comet bietet umfassende Analysewerkzeuge, die eine tiefgreifende Recherche direkt im Browser ermöglichen.
Informationsverarbeitung in Echtzeit: Die Benutzer profitieren von aktuellen Informationen mit Quellenangaben, die Genauigkeit und Glaubwürdigkeit gewährleisten.
Umfangreiche App-Integrationen: Mit der Unterstützung von über 800 Anwendungen will Comet zu einem zentralen Knotenpunkt für die digitalen Aktivitäten der Benutzer werden.

Durch die Verschmelzung von KI mit traditionellen Browserfunktionen wird Comet die Art und Weise verändern, wie Nutzer mit dem Web interagieren, und möglicherweise die Landschaft der Produktivität und Informationsverarbeitung verändern. Wie Perplexity es ausdrückt, ist Comet wirklich “ein Browser für die agentenbasierte Suche” und verspricht eine neue Ära der intelligenten Webnavigation.

Strategische Positionierung und Marktkontext

Mit Comet wagt Perplexity den Einstieg in den hart umkämpften Browsermarkt und sieht sich mit etablierten Anbietern wie Google Chrome und neuen KI-gestützten Browsern wie Dia von The Browser Company konfrontiert. Comet hebt sich jedoch durch seine einzigartige Positionierung als KI-gestützter, Chromium-basierter Browser mit fortschrittlichen Funktionen zur Aufgabenautomatisierung von den herkömmlichen Angeboten ab.

Während Google Chrome über eine große Nutzerbasis und grundlegende KI-Funktionen verfügt, will sich Comet durch seine ausgefeilten KI-Funktionen, umfangreiche App-Integrationen und tiefgreifende Recherchetools abheben – und das alles ohne zusätzliche Erweiterungen. Dieser Ansatz könnte Nutzer ansprechen, die ein intelligenteres und schlankeres Browsing-Erlebnis suchen und so möglicherweise die Dominanz von Chrome in bestimmten Segmenten herausfordern.

Die Marketingstrategie von Perplexity für Comet nutzt geschickt die bestehende Nutzerbasis der Suchmaschine, die bereits über 100 Millionen Suchanfragen pro Woche verarbeitet. Durch das Anzapfen dieses etablierten Publikums will Perplexity eine reibungslosere Einführung von Comet ermöglichen, was dem Unternehmen einen erheblichen Vorteil bei der Nutzerakquise und -bindung in der konkurrierenden Browserlandschaft verschaffen könnte.

Rechtliche und ethische Erwägungen

Als Perplexity mit Comet den Einstieg in den Browsermarkt wagt, steht das Unternehmen nicht nur vor technologischen Herausforderungen, sondern auch vor erheblichen rechtlichen und ethischen Hürden. Das Unternehmen hat sich kürzlich in Rechtsstreitigkeiten mit großen Verlagen über die Nutzung von Inhalten verwickelt gesehen. Dow Jones von News Corp und die NY Post haben Klage gegen Perplexity eingereicht. Sie beschuldigen das Unternehmen der unerlaubten Vervielfältigung von Inhalten und bezeichnen es als “Content Kleptocracy”. Darüber hinaus hat die New York Times eine Unterlassungserklärung abgegeben und damit den rechtlichen Druck weiter erhöht.

Als Reaktion auf diese Vorwürfe behauptet Perplexity, dass es die Inhalte der Verleger respektiert und hat ein Programm zur Umsatzbeteiligung für Medienunternehmen eingeführt. Dieser Schritt scheint ein Versuch zu sein, Bedenken auszuräumen und eine kooperativere Beziehung zu den Urhebern von Inhalten aufzubauen. Es bleibt jedoch abzuwarten, wie wirksam dieses Programm bei der Beilegung von Rechtsstreitigkeiten sein wird.

F: Was sind die ethischen Auswirkungen des KI-gesteuerten Surfens im Internet?

A: Die Einführung von KI-gesteuerten Browsern wie Comet wirft wichtige ethische Fragen zum Datenschutz und zur Benutzerautonomie auf. Cybersecurity-Analysten wie Mark Thompson haben Bedenken darüber geäußert, wie Nutzerdaten bei der Verwendung von KI-gesteuerten Browsing-Tools gesammelt, verarbeitet und möglicherweise weitergegeben werden könnten. Comet verspricht, die Interaktion im Web durch Funktionen wie die Agentensuche und umfangreiche App-Integrationen zu revolutionieren, und verstärkt damit die Notwendigkeit transparenter Datenpraktiken und eines soliden Datenschutzes.

Expertenmeinungen und Brancheneinblicke

Während sich der Comet-Browser von Perplexity auf seine Markteinführung vorbereitet, äußern sich Experten zu seinen möglichen Auswirkungen und Folgen. Dr. Sarah Chen, eine bekannte KI-Forscherin, ist der Meinung, dass Comet dank seiner fortschrittlichen agentenbasierten Suchfunktionen die Art und Weise, wie Nutzer mit Online-Informationen umgehen, grundlegend verändern könnte. Diese Sichtweise steht im Einklang mit dem raschen Wachstum von Perplexity, dessen KI-Suchmaschine inzwischen rund 100 Millionen Anfragen pro Woche verarbeitet.

Trotz dieser Bedenken erwarten Branchenbeobachter ein deutliches Wachstum bei der Integration von KI in Webtechnologien. Die Bewertung von Perplexity mit 9 Milliarden Dollar und seine Positionierung als Top-Wettbewerber im Bereich der KI-Suchmaschinen unterstreichen diesen Trend. Comet steht nicht nur für ein neues Produkt, sondern auch für einen möglichen Wandel in der Art und Weise, wie wir das Internet wahrnehmen und mit ihm interagieren, wobei Innovation und die Notwendigkeit einer verantwortungsvollen KI-Implementierung in Einklang gebracht werden müssen.

Wird dies die Suche verändern?

Die Vision des Unternehmens, das Web-Browsing neu zu erfinden, ähnlich wie sein Ansatz bei Suchmaschinen, deutet auf eine Zukunft hin, in der KI-gesteuerte Browser die Norm werden könnten. Mit der raschen Expansion von Perplexity und der Einführung innovativer Produkte ist Comet in der Lage, von dem wachsenden Trend zur Integration von KI in Webtechnologien zu profitieren.

Auf dem Browsermarkt könnte es zu bedeutenden Veränderungen kommen, da sich die Nutzer an intelligentere, aufgabenorientierte Browsing-Erlebnisse gewöhnen. Perplexitys Fokus auf agentenbasierte Suchfunktionen in Comet könnte die digitale Interaktion neu definieren, komplexe Online-Aufgaben vereinfachen und die Surfgewohnheiten verändern. Da KI weiterhin verschiedene Aspekte der Technologie durchdringt, stellt Comet einen mutigen Schritt in Richtung einer Zukunft dar, in der Webbrowser als intelligente Assistenten fungieren, die die Produktivität steigern und die Art und Weise, wie wir durch die digitale Welt navigieren, verändern.

The post Perplexity Comet: Mutiger Sprung in die Agentensuche appeared first on Cody - The AI Trained on Your Business.