Om Kamath, Author at Cody - The AI Trained on Your Business

Gemini Embedding 2 : le premier modèle d’intégration multimodale de Google

Om Kamath — Tue, 24 Mar 2026 03:02:17 +0000

Gemini Embedding 2 : Fonctionnalités, références, prix et comment démarrer

La semaine dernière, Google a publié Gémeaux Embedding 2, le premier modèle d’intégration nativement multimodal construit sur l’architecture Gemini. Si vous travaillez avec des embeddings à quelque titre que ce soit, cela mérite votre attention. Il a le potentiel de perturber de manière significative les pipelines d’intégration multimodale sur lesquels la plupart des équipes s’appuient aujourd’hui.

Jusqu’à présent, les modèles d’intégration phares d’OpenAI, Cohere et Voyage étaient principalement basés sur le texte. Quelques options multimodales existaient – CLIP pour l’alignement image-texte, Voyage Multimodal 3.5 pour les images et la vidéo – mais aucune ne couvrait l’ensemble des modalités dans un espace vectoriel unique et unifié. L’audio devait généralement être transcrit avant d’être intégré. La vidéo nécessitait l’extraction d’images combinée à l’intégration de transcriptions séparées. Les images vivaient dans leur propre espace vectoriel.

Gemini Embedding 2 change cette équation. Un modèle, un appel API, un espace vectoriel.

Voyons ce qu’il y a de nouveau.

Qu’est-ce que Gemini Embedding 2 ?

Gemini Embedding 2 (gemini-embedding-2-preview) est le premier modèle d’intégration entièrement multimodal de Google DeepMind. Il prend du texte, des images, des clips vidéo, des enregistrements audio et des documents PDF et les convertit tous en vecteurs qui vivent dans le même espace sémantique partagé.

Contrairement aux approches multimodales antérieures telles que CLIP, qui associent un codeur de vision à un codeur de texte et les alignent avec un apprentissage contrastif à la fin, Gemini Embedding 2 est construit sur le modèle de base Gemini lui-même. Cela signifie qu’il hérite d’une compréhension multimodale profonde dès le départ.

Image générée par Nano Banana

Exemple pratique : Imaginez que vous construisiez un système de gestion de l’apprentissage (LMS) avec des tutoriels vidéo, des conférences audio et des guides écrits. Grâce à Gemini Embedding 2, vous pouvez stocker les enchâssements de tous ces contenus dans un espace vectoriel unique et construire un chatbot basé sur RAG qui récupère les morceaux pertinents des vidéos, des audios et des documents. Auparavant, cela nécessitait un pipeline d’intégration à plusieurs niveaux – et même dans ce cas, il ne capturait que les transcriptions, sans tenir compte du contexte visuel d’une vidéo ou du ton de la voix d’un orateur.

Le modèle utilise l’apprentissage par représentation Matryoshka, ce qui signifie que vous n’êtes pas obligé d’utiliser les 3072 dimensions si vous n’en avez pas besoin. Vous pouvez réduire l’échelle à 1536 ou 768 et obtenir des résultats exploitables.

L’apprentissage par représentation matryoshka (MRL) est une technique d’apprentissage des modèles d’intégration de sorte que les représentations apprises soient utiles non seulement à leur pleine dimensionnalité, mais aussi à diverses dimensions plus petites – imbriquées les unes dans les autres comme des poupées russes matryoshka. Pendant l’apprentissage, la fonction de perte est calculée non seulement sur l’intégration complète, mais aussi sur plusieurs préfixes du vecteur d’intégration. Cela encourage le modèle à regrouper les informations les plus importantes dans les premières dimensions, chaque dimension suivante ajoutant des détails plus fins – une structure grossière à fine.

Modalités prises en charge et limites d’entrée

Le modèle accepte cinq types d’entrées, toutes mappées dans le même espace d’intégration :

Modalité	Limite d’entrée	Formats
Texte	Jusqu’à 8 192 jetons	Texte brut
Images	Jusqu’à 6 images par demande	PNG, JPEG
Vidéo	Jusqu’à 120 secondes	MP4, MOV
Audio	Jusqu’à 80 secondes (natif, sans transcription)	MP3, WAV
PDFs	Documents PDF directement incorporés	Documents PDF

Comparaison avec les modèles existants

TLDR : Le nouveau modèle Gemini Embedding 2 de Google surpasse ses concurrents (son prédécesseur, Amazon Nova 2 et Voyage Multimodal 3.5) dans presque toutes les modalités : texte, image, vidéo et parole. C’est en recherche vidéo et en correspondance image-texte qu’il est le plus convaincant. Le seul point de référence où il ne gagne pas est la recherche de documents, où Voyage a une légère longueur d’avance. La recherche de texte vocal est une catégorie que Gemini possède en propre, car aucun concurrent ne la prend en charge.

Google a publié des comparaisons avec ses propres modèles, Amazon Nova 2 Multimodal Embeddings et Voyage Multimodal 3.5. Voici le tableau complet :

Texte-Texte

Métrique	Gemini Embedding 2	gemini-embedding-001	Amazon Nova 2	Voyage Multimodal 3.5
MTEB Multilingue (tâche moyenne)	69.9	68.4	63.8**	58.5***
Code MTEB (tâche moyenne)	84.0	76.0	*	*

Gemini Embedding 2 est en tête pour les textes multilingues avec une marge confortable et gagne 8 points par rapport à son prédécesseur pour la recherche de codes. Ni Amazon Nova 2 ni Voyage ne rapportent de scores de code.

Texte-Image

Métrique	Gemini Embedding 2	multimodalembedding@001	Amazon Nova 2	Voyage Multimodal 3.5
TextCaps (rappel@1)	89.6	74.0	76.0	79.4
Docci (rappel@1)	93.4	–	84.0	83.8

Une nette avance dans la recherche texte-image – plus de 9 points d’avance sur le concurrent le plus proche sur les deux critères de référence.

Image-Texte

Métrique	Gemini Embedding 2	multimodalembedding@001	Amazon Nova 2	Voyage Multimodal 3.5
TextCaps (rappel@1)	97.4	88.1	88.9	88.6
Docci (rappel@1)	91.3	–	76.5	77.4

La recherche d’images dans le texte présente les écarts les plus importants, avec près de 15 points d’avance sur Amazon Nova 2 sur Docci.

Document texte

Métrique	Gemini Embedding 2	multimodalembedding@001	Amazon Nova 2	Voyage Multimodal 3.5
ViDoRe v2 (ndcg@10)	64.9	28.9	60.6	65.5**

Le seul critère où Voyage Multimodal 3.5 a une longueur d’avance (auto-évaluation). La recherche de documents est proche entre les modèles les plus performants.

Texte-Vidéo

Métrique	Gemini Embedding 2	multimodalembedding@001	Amazon Nova 2	Voyage Multimodal 3.5
Vatex (ndcg@10)	68.8	54.9	60.3	55.2
MSR-VTT (ndcg@10)	68.0	57.9	67.0	63.0**
Youcook2 (ndcg@10)	52.5	34.9	34.7	31.4**

C’est dans le domaine de la récupération de vidéos que Gemini Embedding 2 est le plus en avance – plus de 17 points au-dessus de Voyage sur Youcook2 et plus de 13 points sur Vatex.

Discours-Texte

Métrique	Emboîtement Gemini 2
MSEB (mrr@10)	73.9
MSEB ASR**** (mrr@10)	70.4

La récupération de texte parlé n’est pas du tout contestée – ni Amazon ni Voyage ne la prennent en charge. C’est une catégorie que Gemini Embedding 2 possède à part entière.

– score non disponible ** auto-déclaré *** voyage-3.5 **** Le modèle ASR convertit les requêtes audio en texte.

Tarification

Le modèle est actuellement gratuit dans le cadre de la prévisualisation publique. Une fois qu’il est payant, voici comment il se décompose :

	Niveau gratuit	Palier payant (par 1M de jetons)
Saisie de texte	Gratuit	$0.20
Saisie d’images	Gratuit	0,45 $ (0,00012 $ par image)
Entrée audio	Gratuit	6,50 $ (0,00016 $ par seconde)
Entrée vidéo	Gratuit	12,00 $ (0,00079 $ par image)
Utilisé pour améliorer les produits Google	Oui	Non

Pour commencer

Le modèle est disponible dès maintenant en avant-première publique via l’API Gemini et Vertex AI sous l’identifiant de modèle gemini-embedding-2-preview. Il s’intègre à LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB et Vector Search.

from google import genai
from google.genai import types

# For Vertex AI:
# PROJECT_ID=''
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')

client = genai.Client()

with open("example.png", "rb") as f:
    image_bytes = f.read()

with open("sample.mp3", "rb") as f:
    audio_bytes = f.read()

# Embed text, image, and audio 
result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type="image/png",
        ),
        types.Part.from_bytes(
            data=audio_bytes,
            mime_type="audio/mpeg",
        ),
    ],
)

print(result.embeddings)

Essayez-le ici !

Nous avons créé une application de démonstration qui vous permet de tester les performances de recherche multimodale de gemini-embedding-2.

Vous pouvez obtenir la clé API en vous connectant à aistudio.google.com.

Limites à surveiller

Le modèle est encore en avant-première publique (la mention “avant-première” signifie que les prix et le comportement peuvent être modifiés avant l’AG).
L’entrée vidéo est limitée à 120 secondes et l’entrée audio à 80 secondes.
Les performances dans des domaines de niche comme l’assurance qualité financière sont plus faibles ; évaluez-les par rapport à vos données spécifiques avant de vous engager.
Pour les pipelines purement textuels sans plans multimodaux, le surcoût par rapport aux modèles textuels uniquement peut ne pas être justifié.

Le bilan

Gemini Embedding 2 n’est pas seulement une amélioration incrémentale, c’est un changement de catégorie. Pour les équipes qui construisent des systèmes RAG multimodaux, des recherches sémantiques sur différents types de médias ou des bases de connaissances unifiées, il résume en un seul appel d’API ce qui était auparavant un problème multi-modèle et multi-pipeline. Si vos données ne se limitent pas à du texte, c’est le modèle à évaluer en priorité.

Construire un RAG multimodal ne devrait pas signifier assembler des modèles d’intégration, des bases de données vectorielles et une logique d’extraction à partir de zéro. Si vous souhaitez une solution RAG-as-a-Service qui gère le pipeline d’intégration pour vous, inscrivez-vous à l’essai gratuit chez Cody et commencez à construire dès aujourd’hui.

The post Gemini Embedding 2 : le premier modèle d’intégration multimodale de Google appeared first on Cody - The AI Trained on Your Business.

Gemini 2.5 Pro et GPT-4.5 : Qui mène la révolution de l’IA ?

Om Kamath — Wed, 26 Mar 2025 15:36:01 +0000

En 2025, le monde de l’intelligence artificielle est devenu très excitant, les grandes entreprises technologiques se livrant une concurrence féroce pour créer les systèmes d’IA les plus avancés qui soient. Cette compétition intense a suscité de nombreuses idées nouvelles, repoussant les limites de ce que l’IA peut faire en matière de réflexion, de résolution de problèmes et d’interaction avec les humains. Au cours du mois dernier, des améliorations étonnantes ont été réalisées, avec deux acteurs principaux en tête : Gemini 2.5 Pro de Google et GPT-4.5 d’OpenAI. Lors d’une grande révélation en mars 2025, Google a présenté Gemini 2.5 Pro, qu’il qualifie de création la plus intelligente à ce jour. Il est rapidement devenu le plus performant du classement LMArena, surpassant ses concurrents. La particularité de Gemini 2.5 réside dans sa capacité à examiner attentivement les réponses, ce qui lui permet d’être plus performant dans les tâches complexes nécessitant une réflexion approfondie.

Ne voulant pas se laisser distancer, OpenAI a lancé GPT-4.5, son modèle de chat le plus grand et le plus avancé à ce jour. Ce modèle est capable de reconnaître des modèles, d’établir des connexions et de trouver des idées créatives. Les premiers tests montrent que l’interaction avec GPT-4.5 semble très naturelle, grâce à son large éventail de connaissances et à sa meilleure compréhension de ce que les utilisateurs veulent dire. OpenAI souligne les améliorations significatives de GPT-4.5 en matière d’apprentissage sans supervision directe, conçu pour une collaboration harmonieuse avec les humains.

Ces systèmes d’IA ne sont pas seulement une technologie impressionnante ; ils modifient le fonctionnement des entreprises, accélèrent les découvertes scientifiques et transforment les projets créatifs. Alors que l’IA devient un élément normal de la vie quotidienne, des modèles comme Gemini 2.5 Pro et GPT-4.5 élargissent ce que nous pensons être possible. Avec de meilleures capacités de raisonnement, moins de risques de diffusion de fausses informations et une maîtrise des problèmes complexes, ils ouvrent la voie à des systèmes d’IA qui soutiennent véritablement le progrès humain.

Comprendre Gemini 2.5 Pro

Le 25 mars 2025, Google a officiellement dévoilé Gemini 2.5 Pro, décrit comme son “modèle d’IA le plus intelligent” à ce jour. Cette version a marqué une étape importante dans le développement de l’IA de Google, après plusieurs itérations de ses modèles 2.0. La stratégie de lancement a commencé par la version expérimentale, donnant aux abonnés de Gemini Advanced un accès anticipé pour tester ses capacités.

Ce qui distingue Gemini 2.5 Pro de ses prédécesseurs, c’est son architecture fondamentale en tant que“modèle de réflexion“. Contrairement aux générations précédentes qui s’appuyaient principalement sur des modèles de données entraînés, ce modèle peut raisonner activement avant de répondre, imitant ainsi les processus humains de résolution de problèmes. Il s’agit d’une avancée significative dans la manière dont les systèmes d’IA traitent les informations et génèrent des réponses.

Principales caractéristiques et capacités :

Capacités de raisonnement accrues – Capacité à résoudre des problèmes étape par étape dans des domaines complexes
Fenêtre contextuelle élargie – capacité de 1 million de jetons (avec des projets d’extension à 2 millions)
Multimodalité native – Traite de manière transparente le texte, les images, l’audio, la vidéo et le code.
Capacités de codage avancées – Améliorations significatives de la création d’applications web et de la transformation du code

Gemini 2.5 Pro s’est imposé comme un leader en matière de performances, en se plaçant au premier rang du classement LMArena. Il excelle particulièrement dans les benchmarks nécessitant un raisonnement avancé, obtenant un score record de 18,8 % à Humanity’s Last Exam sans utiliser d’outils externes. En mathématiques et en sciences, il fait preuve d’une compétence remarquable avec des scores de 86,7 % sur AIME 2025 et de 79,7 % sur GPQA diamond respectivement.

Par rapport aux modèles Gemini précédents, la version 2.5 Pro représente une avancée substantielle. Alors que Gemini 2.0 a introduit d’importantes capacités fondamentales, la version 2.5 Pro combine un modèle de base considérablement amélioré avec des techniques de post-entraînement plus performantes. Les améliorations les plus notables concernent les performances de codage, la profondeur du raisonnement et la compréhension du contexte, domaines dans lesquels les versions précédentes présentaient des limites.

Explorer GPT-4.5

En avril 2025, l’OpenAI a présenté GPT-4.5, le décrivant comme son “modèle de chat le plus grand et le plus avancé à ce jour”, ce qui représente une avancée notable dans l’évolution des grands modèles de langage. Cet aperçu de la recherche a immédiatement suscité l’enthousiasme de la communauté de l’IA, les premiers tests indiquant que les interactions avec le modèle semblent exceptionnellement naturelles, grâce à sa vaste base de connaissances et à sa capacité accrue à comprendre l’intention de l’utilisateur.

GPT-4.5 présente des avancées significatives dans les capacités d’apprentissage non supervisé. OpenAI a réalisé ces progrès en augmentant à la fois la puissance de calcul et les entrées de données, tout en employant des stratégies architecturales et d’optimisation innovantes. Le modèle a été entraîné sur les supercalculateurs Microsoft Azure AI, poursuivant un partenariat qui a permis à OpenAI de repousser les limites du possible.

Améliorations et capacités essentielles :

Amélioration de la reconnaissance des schémas – Amélioration significative de la capacité à reconnaître les schémas, à établir des liens et à générer des idées créatives.
Réduction des hallucinations – Moins de risques de générer de fausses informations par rapport aux modèles précédents tels que GPT-4o et o1
Amélioration du “QE” – Plus grande intelligence émotionnelle et compréhension des interactions humaines nuancées
Pilotage avancé – Meilleure compréhension et respect des instructions complexes de l’utilisateur

L’OpenAI a mis l’accent sur la formation de GPT-4.5 à la collaboration humaine. De nouvelles techniques améliorent la dirigeabilité du modèle, sa compréhension des nuances et le flux naturel des conversations. Cela le rend particulièrement efficace dans l’assistance à la rédaction et à la conception, où il fait preuve d’une intuition esthétique et d’une créativité plus fortes que les itérations précédentes.

Dans les applications réelles, GPT-4.5 fait preuve d’une polyvalence remarquable. Sa base de connaissances élargie et ses capacités de raisonnement améliorées lui permettent de s’adapter à un large éventail de tâches, de la création de contenu détaillé à la résolution de problèmes sophistiqués. Le PDG d’OpenAI, Sam Altman, a décrit le modèle en termes positifs, soulignant son “efficacité unique” bien qu’il ne soit pas en tête dans toutes les catégories de référence.

La stratégie de déploiement de GPT-4.5 reflète l’approche mesurée d’OpenAI en ce qui concerne le lancement de puissants systèmes d’IA. Initialement disponible pour les abonnés de ChatGPT Pro et les développeurs sur les paliers payants par le biais de diverses API, l’entreprise prévoit d’étendre progressivement l’accès aux abonnés de ChatGPT Plus, Team, Edu et Enterprise. Ce déploiement progressif permet à OpenAI de contrôler les performances et la sécurité au fur et à mesure de l’augmentation de l’utilisation.

Mesures de performance : Une analyse comparative

Lorsque l’on examine les capacités techniques de ces modèles d’IA avancés, les performances des tests de référence fournissent la mesure la plus objective de leurs capacités. Gemini 2.5 Pro et GPT-4.5 démontrent chacun des forces uniques dans divers domaines, les tests de référence révélant leurs avantages distincts.

Point de repère	Gemini 2.5 Pro (03-25)	OpenAI GPT-4.5	Claude 3.7 Sonnet	Aperçu de Grok 3
LMArena (Total)	#1	2	21	2
Le dernier examen de l’humanité (sans outils)	18.8%	6.4%	8.9%	–
GPQA Diamant (tentative unique)	84.0%	71.4%	78.2%	80.2%
AIME 2025 (tentative unique)	86.7%	–	49.5%	77.3%
SWE-Bench Vérifié	63.8%	38.0%	70.3%	–
Aider Polyglotte (Entier/Diff)	74.0% / 68.6%	44,9% diff	64,9% diff	–
MRCR (128k)	91.5%	48.8%	–	–

Gemini 2.5 Pro fait preuve d’une force exceptionnelle dans les tâches de raisonnement intensif, excellant particulièrement dans le raisonnement à contexte long et la rétention des connaissances. Il surpasse largement ses concurrents lors du dernier examen de l’humanité, qui teste les limites de la connaissance humaine. Cependant, il montre des faiblesses relatives dans la génération de code, le codage agentique, et se bat occasionnellement avec la factualité dans certains domaines.

Le GPT-4.5, quant à lui, fait preuve d’une excellence particulière en matière de reconnaissance des formes, de génération d’idées créatives et de raisonnement scientifique. Il surpasse le benchmark GPQA diamant, montrant de fortes capacités dans les domaines scientifiques. Le modèle fait également preuve d’une intelligence émotionnelle et d’une intuition esthétique accrues, ce qui le rend particulièrement utile pour les applications créatives et axées sur la conception. L’un de ses principaux avantages est qu’il a moins tendance à générer de fausses informations que ses prédécesseurs.

En termes pratiques, Gemini 2.5 Pro représente le meilleur choix pour les tâches nécessitant un raisonnement approfondi, une compréhension multimodale et le traitement de contextes extrêmement longs. GPT-4.5 offre des avantages pour le travail créatif, l’assistance à la conception et les applications où la précision des faits et le flux naturel de la conversation sont primordiaux.

Applications et cas d’utilisation

Bien que les performances de référence fournissent des informations techniques précieuses, la véritable mesure de ces modèles d’IA avancés réside dans leurs applications pratiques dans divers domaines. Gemini 2.5 Pro et GPT-4.5 présentent tous deux des atouts distincts qui les rendent adaptés à différents cas d’utilisation, et les entreprises commencent déjà à tirer parti de leurs capacités pour résoudre des problèmes complexes.

Gemini 2.5 Pro dans les domaines scientifiques et techniques

Les capacités de raisonnement exceptionnelles de Gemini 2.5 Pro et sa fenêtre contextuelle étendue en font un outil particulièrement précieux pour la recherche scientifique et les applications techniques. Sa capacité à traiter et à analyser des données multimodales (texte, images, audio, vidéo et code) lui permet de traiter des problèmes complexes nécessitant la synthèse d’informations provenant de sources diverses. Cette polyvalence ouvre de nombreuses possibilités dans les secteurs qui exigent une précision technique et une analyse complète.

Recherche scientifique et analyse de données – Les excellentes performances de Gemini 2.5 Pro sur des benchmarks tels que GPQA (79,7 %) démontrent son potentiel à aider les chercheurs à analyser des documents scientifiques complexes, à générer des hypothèses et à interpréter des résultats expérimentaux.
Développement et ingénierie de logiciels – Le modèle excelle dans la création d’applications web, la transformation de code et le développement de programmes complexes avec un score de 63,8 % sur SWE-Bench Verified en utilisant des configurations d’agents personnalisées.
Diagnostic médical et soins de santé – Ses capacités de raisonnement permettent d’analyser l’imagerie médicale et les données des patients afin d’aider les professionnels de la santé dans leurs processus de diagnostic.
Analyse des big data et gestion des connaissances – La fenêtre contextuelle de 1 million de jetons (bientôt 2 millions) permet de traiter des ensembles de données et des référentiels de code entiers en une seule fois.

Excellence du GPT-4.5 dans les tâches de création et de communication

En revanche, le GPT-4.5 se montre particulièrement performant dans les tâches nécessitant une communication nuancée, une réflexion créative et un jugement esthétique. OpenAI a mis l’accent sur l’entraînement de ce modèle spécifiquement pour la collaboration humaine, ce qui a permis d’améliorer les capacités de création de contenu, d’assistance à la conception et de communication naturelle.

Création de contenu et rédaction – GPT-4.5 fait preuve d’une intuition esthétique et d’une créativité accrues, ce qui le rend précieux pour la rédaction de textes marketing, d’articles, de scripts et d’autres contenus écrits.
Collaboration à la conception – La meilleure compréhension des nuances et du contexte par le modèle en fait un partenaire efficace dans les processus de conception, de l’élaboration à la mise au point.
Engagement des clients – Grâce à une plus grande intelligence émotionnelle, GPT-4.5 fournit des réponses plus appropriées et plus naturelles dans les contextes de service à la clientèle.
Développement de contenus éducatifs – Le modèle permet d’adapter les explications aux différents niveaux de connaissances et styles d’apprentissage.

Des entreprises de divers secteurs intègrent déjà ces modèles dans leurs processus de travail. Microsoft a incorporé la technologie d’OpenAI directement dans sa suite de produits, offrant aux utilisateurs professionnels un accès immédiat aux capacités de GPT-4.5. De même, Gemini 2.5 Pro de Google trouve des applications dans les instituts de recherche et les entreprises technologiques qui cherchent à tirer parti de ses capacités de raisonnement et de multimodalité.

Les forces complémentaires de ces modèles suggèrent que de nombreuses organisations pourraient bénéficier de l’utilisation des deux, en fonction des cas d’utilisation spécifiques. Au fur et à mesure que ces technologies mûrissent, nous pouvons nous attendre à voir des applications de plus en plus sophistiquées qui transforment fondamentalement le travail de connaissance, les processus créatifs et la résolution de problèmes dans tous les secteurs.

L’avenir de l’IA : que nous réserve l’avenir ?

Alors que Gemini 2.5 Pro et GPT-4.5 repoussent les limites du possible, la trajectoire future du développement de l’IA se précise. L’engagement de Google à “intégrer des capacités de raisonnement directement dans tous les modèles” laisse entrevoir un avenir où le raisonnement deviendra la norme dans tous les systèmes d’IA. De même, l’approche d’OpenAI, qui consiste à “étendre l’apprentissage et le raisonnement non supervisés”, laisse entrevoir des modèles dotés de capacités de plus en plus étendues pour comprendre et générer des contenus semblables à ceux des humains.

Les années à venir verront probablement des modèles d’IA avec des fenêtres contextuelles considérablement élargies au-delà des limites actuelles, un raisonnement plus sophistiqué et une intégration transparente dans toutes les modalités. Nous pourrions également assister à la montée en puissance d’agents d’IA véritablement autonomes, capables d’exécuter des tâches complexes avec une supervision humaine minimale. Toutefois, ces progrès s’accompagnent de défis importants. À mesure que les capacités de l’IA augmentent, il devient de plus en plus important d’aborder les risques potentiels liés à la désinformation, à la protection de la vie privée et au déplacement de la main-d’œuvre humaine.

Les considérations éthiques doivent rester au premier plan du développement de l’IA. L’OpenAI reconnaît que “chaque augmentation des capacités des modèles est une occasion de les rendre plus sûrs”, soulignant la double responsabilité du progrès et de la protection. La communauté de l’IA devra développer des cadres de gouvernance solides qui encouragent l’innovation tout en protégeant contre les abus.

La révolution de l’IA représentée par Gemini 2.5 Pro et GPT-4.5 ne fait que commencer. Si le rythme des progrès suscite à la fois excitation et appréhension, une chose reste claire : l’avenir de l’IA sera défini non seulement par les capacités technologiques, mais aussi par la manière dont nous choisirons de les exploiter au profit de l’homme. En donnant la priorité à un développement responsable qui renforce le potentiel humain au lieu de le remplacer, nous pouvons faire en sorte que la prochaine génération de modèles d’IA serve d’outils puissants pour le progrès collectif.

The post Gemini 2.5 Pro et GPT-4.5 : Qui mène la révolution de l’IA ? appeared first on Cody - The AI Trained on Your Business.

GPT-4.5 vs Claude 3.7 Sonnet : Une plongée en profondeur dans les progrès de l’IA

Om Kamath — Sun, 02 Mar 2025 15:52:48 +0000

Le paysage de l’intelligence artificielle évolue rapidement, avec deux modèles récents qui se distinguent : GPT-4.5 et Claude 3.7 Sonnet. Ces modèles linguistiques avancés représentent des avancées significatives en matière de capacités d’intelligence artificielle, chacun apportant des atouts uniques.

La version GPT-4.5 d’OpenAI, bien qu’il s’agisse d’une mise à jour mineure, présente des améliorations en matière de réduction des hallucinations et d’amélioration de la conversation naturelle. D’autre part, le Claude 3.7 Sonnet d’Anthropic a attiré l’attention pour ses capacités de codage exceptionnelles et son rapport coût-efficacité. Les deux modèles s’adressent à un large éventail d’utilisateurs, depuis les développeurs et les chercheurs jusqu’aux entreprises à la recherche de solutions d’IA de pointe.

En repoussant les limites de ce qui est possible en matière d’IA, ces modèles redéfinissent les attentes et les applications dans divers secteurs, préparant le terrain pour des avancées encore plus transformatrices dans un avenir proche.

Caractéristiques principales de GPT-4.5 et Claude 3.7 Sonnet

GPT-4.5 et Claude 3.7 Sonnet apportent tous deux des avancées significatives dans le domaine de l’IA, chacun avec ses propres atouts. GPT-4.5, décrit comme le “modèle le plus grand et le plus compétent d’OpenAI à ce jour”, se concentre sur l’expansion de l’apprentissage non supervisé afin d’améliorer la connaissance des mots et l’intuition tout en réduisant les hallucinations. Ce modèle excelle dans l’amélioration des capacités de raisonnement et des interactions de chat grâce à une meilleure compréhension du contexte.

D’autre part, Claude 3.7 Sonnet introduit un modèle de raisonnement hybride révolutionnaire, permettant à la fois des réponses rapides et une réflexion approfondie, étape par étape. Il brille particulièrement dans le codage et le développement de sites web, montrant d’excellentes capacités de suivi des instructions et de raisonnement général.

Améliorations clés :

GPT-4.5: Amélioration de l’apprentissage non supervisé et des capacités de conversation
Claude 3.7 Sonnet: Raisonnement hybride avancé et prouesses de codage supérieures
Les deux modèles: Amélioration des capacités multimodales et du raisonnement adaptatif

Performance et évaluation

Tâche	GPT-4.5 (vs 4o)	Claude 3.7 Sonnet* (vs 3.5)
Codage	Amélioré	Des performances nettement supérieures
Mathématiques	Amélioration modérée	Meilleur sur les problèmes AIME’24
Raisonnement	Performances similaires	Performances similaires
Multimodalité	Performances similaires	Performances similaires

* Sans réflexion approfondie

GPT-4.5 a montré des améliorations notables dans les interactions de chat et une réduction des hallucinations. Les testeurs humains l’ont jugé plus précis et factuel que les modèles précédents, ce qui en fait un partenaire de conversation plus fiable.

Claude 3.7 Sonnet, quant à lui, fait preuve d’une efficacité exceptionnelle dans les applications en temps réel et les tâches de codage. Il a atteint des performances de pointe sur SWE-bench Verified et TAU-bench, démontrant ses prouesses en matière d’ingénierie logicielle et de résolution de problèmes complexes. En outre, son débit plus élevé que celui du GPT-4.5 le rend particulièrement adapté aux tâches nécessitant des réponses rapides et le traitement de grandes quantités de données.

Source : Anthropic

Prix et accessibilité

Le GPT-4.5, bien que doté de capacités impressionnantes, est vendu à un prix élevé. Son prix est 75 fois supérieur à celui de son prédécesseur, le GPT-4, sans justification claire de cette augmentation substantielle. Cette stratégie de prix risque de limiter son accessibilité à de nombreux utilisateurs potentiels.

En revanche, Claude 3.7 Sonnet offre une option plus abordable. Sa structure de prix est nettement plus compétitive :

25 fois moins cher pour les jetons d’entrée par rapport à GPT-4.5
10 fois moins cher pour les jetons de sortie
Tarification spécifique : 3 dollars par million de jetons d’entrée et 15 dollars par million de jetons de sortie.

En ce qui concerne la disponibilité, GPT-4.5 est actuellement accessible aux utilisateurs et développeurs de GPT Pro via l’API, avec des plans pour étendre l’accès aux utilisateurs Plus, aux institutions éducatives et aux équipes. Claude 3.7 Sonnet, cependant, offre une accessibilité plus large à travers tous les plans Claude (Free, Pro, Team, Enterprise), ainsi qu’à travers l’API Anthropic, Amazon Bedrock, et Google Cloud’s Vertex AI.

Ces différences de prix et d’accessibilité ont un impact significatif sur l’adoption potentielle et les cas d’utilisation de chaque modèle, Claude 3.7 Sonnet pouvant intéresser un plus grand nombre d’utilisateurs en raison de son rapport coût-efficacité et de sa plus grande disponibilité.

Cas d’utilisation

Le GPT-4.5 et le Claude 3.7 Sonnet offrent tous deux des capacités uniques qui répondent à diverses applications du monde réel. GPT-4.5 excelle en tant que partenaire conversationnel avancé, surpassant les modèles précédents en termes de précision et réduisant les hallucinations. Sa compréhension améliorée du contexte le rend idéal pour le service client, la création de contenu et les expériences d’apprentissage personnalisées.

Claude 3.7 Sonnet, en revanche, brille dans le domaine du codage et du développement de logiciels. Ses capacités de codage agentique, démontrées par Claude Code, automatisent des tâches telles que la recherche de code, l’exécution de tests et l’utilisation d’outils de ligne de commande. Cela en fait un atout inestimable pour les entreprises qui cherchent à rationaliser leurs processus de développement.

Perspectives d’avenir et conclusion

La publication de GPT-4.5 et de Claude 3.7 Sonnet marque une étape importante dans le développement de l’IA, ouvrant la voie à des avancées encore plus révolutionnaires. Bien que GPT-4.5 soit considéré comme une mise à jour mineure, il jette les bases de futurs modèles dotés de capacités de raisonnement améliorées. Claude 3.7 Sonnet, avec son modèle de raisonnement hybride, représente un changement dynamique dans le paysage de l’IA, influençant potentiellement l’orientation des développements futurs.

Au fur et à mesure de l’évolution de ces modèles, nous pouvons nous attendre à de nouvelles améliorations en matière d’apprentissage non supervisé, de capacités de raisonnement et d’optimisations spécifiques à certaines tâches. La nature complémentaire de l’apprentissage non supervisé et du raisonnement suggère que les futurs modèles d’IA présenteront probablement des capacités de résolution de problèmes encore plus sophistiquées.

The post GPT-4.5 vs Claude 3.7 Sonnet : Une plongée en profondeur dans les progrès de l’IA appeared first on Cody - The AI Trained on Your Business.

Perplexity Comet : un saut audacieux dans la recherche agentique

Om Kamath — Thu, 27 Feb 2025 17:53:18 +0000

Perplexity, le géant des moteurs de recherche alimentés par l’IA, fait des vagues dans le monde de la technologie avec son dernier projet : un navigateur web révolutionnaire appelé Comet. Baptisé “A Browser for Agentic Search by Perplexity”, Comet représente un pas audacieux sur le marché concurrentiel des navigateurs. Bien que les détails concernant sa conception et sa date de sortie restent confidentiels, l’entreprise a déjà lancé une liste d’inscription, annonçant que Comet sera bientôt disponible.

Cette décision intervient à un moment où Perplexity connaît une croissance importante. L’entreprise, dont la valeur est estimée à 9 milliards de dollars, traite actuellement plus de 100 millions de requêtes par semaine grâce à son moteur de recherche. L’introduction de Comet témoigne de l’ambition de Perplexity d’étendre son influence au-delà de la recherche, en modifiant potentiellement la manière dont les utilisateurs interagissent avec le web. Au fur et à mesure que l’impatience grandit, Comet s’apprête à devenir un élément central de l’écosystème numérique en expansion de Perplexity.

Caractéristiques principales de Comet

Comet s’appuie sur la “recherche agentique”, une fonctionnalité puissante qui permet l’exécution autonome de tâches. Cela signifie que les utilisateurs peuvent déléguer au navigateur des tâches complexes telles que la réservation de vols ou la gestion des réservations, ce qui améliore considérablement la productivité.

Construit sur une base Chromium, Comet garantit une compatibilité multiplateforme, offrant une expérience transparente sur les ordinateurs de bureau et les appareils mobiles. Ce choix de conception combine la stabilité d’une technologie de navigateur établie avec les innovations de pointe de Perplexity en matière d’intelligence artificielle.

Intégration de la recherche approfondie : Comet offre des outils d’analyse complets, facilitant la recherche approfondie directement dans le navigateur.
Traitement de l’information en temps réel : Les utilisateurs bénéficient d’une information actualisée et citée, ce qui garantit l’exactitude et la crédibilité de l’information.
Intégrations d’applications étendues : Avec la prise en charge de plus de 800 applications, Comet vise à devenir une plaque tournante pour les activités numériques des utilisateurs.

En associant l’IA aux fonctions traditionnelles du navigateur, Comet devrait transformer la manière dont les utilisateurs interagissent avec le web, ce qui pourrait modifier le paysage de la productivité et du traitement de l’information. Comme le dit Perplexity, Comet est véritablement “un navigateur pour la recherche agentique”, promettant une nouvelle ère de navigation intelligente sur le web.

Positionnement stratégique et contexte du marché

En s’aventurant avec Comet sur le marché très concurrentiel des navigateurs, Perplexity doit faire face à de formidables défis de la part d’acteurs établis comme Google Chrome et de navigateurs émergents dotés d’une intelligence artificielle, comme Dia de The Browser Company. Cependant, le positionnement unique de Comet en tant que navigateur basé sur Chromium et alimenté par l’IA, avec des capacités avancées d’automatisation des tâches, le distingue des offres traditionnelles.

Alors que Google Chrome se targue d’une base d’utilisateurs massive et de fonctionnalités d’IA de base, Comet vise à se différencier par ses capacités d’IA sophistiquées, ses intégrations d’applications étendues et ses outils de recherche approfondis, le tout sans nécessiter d’extensions supplémentaires. Cette approche pourrait séduire les utilisateurs à la recherche d’une expérience de navigation plus intelligente et rationalisée, et pourrait remettre en cause la domination de Chrome dans certains segments.

La stratégie marketing de Perplexity pour Comet exploite intelligemment sa base d’utilisateurs de moteurs de recherche, qui traite déjà plus de 100 millions de requêtes par semaine. En s’appuyant sur ce public établi, Perplexity vise à faciliter l’adoption de Comet, ce qui pourrait lui donner un avantage significatif en termes d’acquisition et d’engagement des utilisateurs dans le paysage concurrentiel des navigateurs.

Considérations juridiques et éthiques

En s’aventurant sur le marché des navigateurs avec Comet, Perplexity est confrontée non seulement à des défis technologiques, mais aussi à d’importants obstacles juridiques et éthiques. La société s’est récemment trouvée mêlée à des litiges avec de grands éditeurs sur l’utilisation des contenus. Le Dow Jones de News Corp et le NY Post ont intenté une action en justice contre Perplexity, l’accusant de reproduire des contenus sans autorisation et qualifiant la société de “kleptocratie du contenu”. En outre, le New York Times a émis un avis de cessation et de désistement, intensifiant ainsi la pression juridique.

En réponse à ces allégations, Perplexity maintient qu’elle respecte le contenu des éditeurs et a mis en place un programme de partage des revenus pour les médias. Cette initiative semble être une tentative de répondre aux préoccupations et d’établir une relation plus collaborative avec les créateurs de contenu. Toutefois, l’efficacité de ce programme dans la résolution des litiges reste à démontrer.

Q : Quelles sont les implications éthiques de la navigation web pilotée par l’IA ?

R : L’introduction de navigateurs pilotés par l’IA comme Comet soulève d’importantes questions éthiques sur la confidentialité des données et l’autonomie de l’utilisateur. Des analystes en cybersécurité, tels que Mark Thompson, ont exprimé des inquiétudes quant à la manière dont les données des utilisateurs peuvent être collectées, traitées et potentiellement partagées lors de l’utilisation d’outils de navigation pilotés par l’IA. Comet promet de révolutionner l’interaction sur le web grâce à des fonctionnalités telles que la recherche agentique et l’intégration d’applications, mais il renforce également le besoin de pratiques transparentes en matière de données et de protections solides de la vie privée.

Opinions d’experts et points de vue sur l’industrie

Alors que le navigateur Comet de Perplexity s’apprête à entrer sur le marché, les experts s’interrogent sur son impact potentiel et ses implications. Sarah Chen, éminente chercheuse en IA, estime que Comet pourrait modifier radicalement la manière dont les utilisateurs interagissent avec les informations en ligne, grâce à ses capacités de recherche agentique avancée. Cette perspective s’aligne sur la croissance rapide de Perplexity, comme en témoigne son moteur de recherche IA qui traite désormais environ 100 millions de requêtes par semaine.

Malgré ces inquiétudes, les observateurs du secteur prévoient une croissance significative de l’intégration de l’IA dans les technologies web. L’évaluation de 9 milliards de dollars de Perplexity et son positionnement en tant que principal concurrent dans l’espace des moteurs de recherche IA soulignent cette tendance. Alors que Comet se prépare à être lancé, il ne représente pas seulement un nouveau produit, mais un changement potentiel dans la façon dont nous percevons et interagissons avec l’internet, en équilibrant l’innovation avec la nécessité d’une mise en œuvre responsable de l’IA.

Cela va-t-il transformer la recherche ?

La vision de l’entreprise, qui consiste à réinventer la navigation sur le web, à l’instar de son approche des moteurs de recherche, laisse entrevoir un avenir où les navigateurs pilotés par l’IA pourraient devenir la norme. Avec l’expansion rapide de Perplexity et l’introduction de produits innovants, Comet est prête à capitaliser sur la tendance croissante de l’intégration de l’IA dans les technologies web.

Le marché des navigateurs pourrait connaître d’importants changements à mesure que les utilisateurs s’habituent à des expériences de navigation plus intelligentes et axées sur les tâches. L’accent mis par Perplexity sur les capacités de recherche agentique dans Comet pourrait redéfinir les interactions numériques, en simplifiant potentiellement les tâches complexes en ligne et en remodelant les habitudes de navigation. Alors que l’IA continue d’imprégner divers aspects de la technologie, Comet représente une étape audacieuse vers un avenir où les navigateurs web agiront comme des assistants intelligents, améliorant la productivité et transformant la façon dont nous naviguons dans le monde numérique.

The post Perplexity Comet : un saut audacieux dans la recherche agentique appeared first on Cody - The AI Trained on Your Business.