Om Kamath, Author at Cody - The AI Trained on Your Business

Incrustación Gemini 2: el primer modelo de incrustación multimodal de Google

Om Kamath — Tue, 24 Mar 2026 03:02:17 +0000

Gemini Embedding 2: Características, Benchmarks, Precios y Cómo Empezar

La semana pasada, Google publicó Géminis Incrustación 2, el primer modelo de incrustación multimodal nativo construido sobre la arquitectura Gemini. Si trabajas con incrustaciones de algún modo, esto merece tu atención. Tiene el potencial de alterar significativamente los procesos de incrustación multimodal en los que confían la mayoría de los equipos hoy en día.

Hasta ahora, los modelos emblemáticos de incrustación de OpenAI, Cohere y Voyage se basaban principalmente en el texto. Existían algunas opciones multimodales – CLIP para la alineación imagen-texto, Voyage Multimodal 3.5 para imágenes y vídeo – pero ninguna cubría todo el espectro de modalidades en un único espacio vectorial unificado. Normalmente, había que transcribir el audio antes de incrustarlo. El vídeo requería la extracción de fotogramas combinada con la incrustación de transcripciones por separado. Las imágenes vivían en su propio espacio vectorial.

Gemini Incrustación 2 cambia esa ecuación. Un modelo, una llamada a la API, un espacio vectorial.

Profundicemos en las novedades.

¿Qué es Gemini Incrustación 2?

Gemini Embedding 2 (gemini-embedding-2-preview) es el primer modelo de incrustación completamente multimodal de Google DeepMind. Toma texto, imágenes, videoclips, grabaciones de audio y documentos PDF y los convierte todos en vectores que viven en el mismo espacio semántico compartido.

A diferencia de enfoques multimodales anteriores, como CLIP, que emparejan un codificador de visión con un codificador de texto y los alinean con aprendizaje contrastivo al final, Gemini Embedding 2 se construye sobre el propio modelo base Gemini. Esto significa que hereda una profunda comprensión intermodal desde la base.

Imagen generada con Nano Banana

Ejemplo práctico: Imagina que estás construyendo un Sistema de Gestión del Aprendizaje (SGA) con videotutoriales, conferencias de audio y guías escritas. Con Gemini Embedding 2, puedes almacenar las incrustaciones de todo este contenido en un único espacio vectorial y construir un chatbot basado en RAG que recupere trozos relevantes de vídeos, audio y documentos por igual. Anteriormente, esto requería un proceso de incrustación de varias capas, e incluso entonces, sólo capturaba transcripciones, perdiéndose el contexto visual de un vídeo o el tono de voz de un orador.

El modelo utiliza el Aprendizaje de Representación Matrioska, lo que significa que no tienes que utilizar las 3072 dimensiones si no las necesitas. Puedes reducir la escala a 1536 o 768 y seguir obteniendo resultados utilizables.

El Aprendizaje de la Representación Matrioska (MRL) es una técnica para entrenar modelos de incrustación de modo que las representaciones aprendidas sean útiles no sólo en su dimensionalidad completa, sino también en varias dimensiones más pequeñas, anidadas unas dentro de otras como muñecas rusas matrioskas. Durante el entrenamiento, la función de pérdida se calcula no sólo sobre la incrustación completa, sino también sobre múltiples prefijos del vector de incrustación. Esto anima al modelo a empaquetar la información más importante en las dimensiones más tempranas, y cada dimensión posterior añade detalles de grano más fino: una estructura de grueso a fino.

Modalidades y límites de entrada admitidos

El modelo acepta cinco tipos de entrada, todos ellos mapeados en el mismo espacio de incrustación:

Modalidad	Límite de entrada	Formatos
Texto	Hasta 8.192 fichas	Texto sin formato
Imágenes	Hasta 6 imágenes por solicitud	PNG, JPEG
Vídeo	Hasta 120 segundos	MP4, MOV
Audio	Hasta 80 segundos (nativo, sin transcripción)	MP3, WAV
PDFs	Directamente incrustados	documentos PDF

Cómo se compara con los modelos existentes

TLDR: El nuevo modelo Gemini Embedding 2 de Google supera a sus competidores (su propio predecesor, Amazon Nova 2 y Voyage Multimodal 3.5) en casi todas las modalidades: texto, imagen, vídeo y voz. Su liderazgo es más convincente en la recuperación de vídeo y en la correspondencia imagen-texto. La única prueba en la que no gana es en la recuperación de documentos, en la que Voyage le aventaja ligeramente. La recuperación de texto hablado es una categoría que Gemini posee en solitario, ya que ningún competidor la soporta.

Google publicó comparaciones comparativas con sus propios modelos heredados, Amazon Nova 2 Multimodal Embeddings y Voyage Multimodal 3.5. Aquí está el cuadro completo:

Texto-Texto

Métrica	Incrustación Gemini 2	incrustación-gemini-001	Amazon Nova 2	Viaje Multimodal 3.5
MTEB Multilingüe (Tarea media)	69.9	68.4	63.8**	58.5***
Código MTEB (Tarea media)	84.0	76.0	*	*

Gemini Incrustación 2 lidera en texto multilingüe por un cómodo margen y salta 8 puntos sobre su propio predecesor en recuperación de código. Ni Amazon Nova 2 ni Voyage informan de la puntuación de los códigos.

Texto-Imagen

Métrica	Incrustación Géminis 2	incrustación multimodal@001	Amazon Nova 2	Viaje Multimodal 3.5
TextCaps (recuerdo@1)	89.6	74.0	76.0	79.4
Docci (retirada@1)	93.4	–	84.0	83.8

Una clara ventaja en la recuperación de texto a imagen: más de 9 puntos por delante del competidor más cercano en ambas pruebas.

Imagen-Texto

Métrica	Incrustación Géminis 2	incrustación multimodal@001	Amazon Nova 2	Viaje Multimodal 3.5
TextCaps (recuerdo@1)	97.4	88.1	88.9	88.6
Docci (retirada@1)	91.3	–	76.5	77.4

La recuperación de imagen a texto muestra las mayores diferencias: casi 15 puntos por delante de Amazon Nova 2 en Docci.

Documento de texto

Métrica	Incrustación Géminis 2	incrustación multimodal@001	Amazon Nova 2	Viaje Multimodal 3.5
ViDoRe v2 (ndcg@10)	64.9	28.9	60.6	65.5**

El único punto de referencia en el que Voyage Multimodal 3.5 está por delante (autodeclarado). La recuperación de documentos está muy igualada entre los mejores modelos.

Texto-Vídeo

Métrica	Incrustación Géminis 2	incrustación multimodal@001	Amazon Nova 2	Viaje Multimodal 3.5
Vatex (ndcg@10)	68.8	54.9	60.3	55.2
MSR-VTT (ndcg@10)	68.0	57.9	67.0	63.0**
Youcook2 (ndcg@10)	52.5	34.9	34.7	31.4**

La recuperación de vídeo es donde Gemini Incrustación 2 saca más ventaja: más de 17 puntos por encima de Voyage en Youcook2 y más de 13 puntos en Vatex.

Discurso-Texto

Métrica	Incrustación Géminis 2
MSEB (mrr@10)	73.9
MSEB ASR**** (mrr@10)	70.4

La recuperación de texto hablado es totalmente indiscutible: ni Amazon ni Voyage la admiten. Se trata de una categoría que Gemini Embedding 2 domina por completo.

– puntuación no disponible ** autodeclarada *** voyage-3.5 **** El modelo ASR convierte las consultas de audio en texto

Precios

Actualmente, el modelo es gratuito durante la vista previa pública. Una vez en el nivel de pago, éste es el desglose:

	Nivel gratuito	Nivel de pago (por 1M de fichas)
Introducción de texto	Gratuito	$0.20
Introducción de imágenes	Gratis	0,45 $ (0,00012 $ por imagen)
Entrada de audio	Gratuito	6,50 $ (0,00016 $ por segundo)
Entrada de vídeo	Gratuito	12,00 $ (0,00079 $ por fotograma)
Se utiliza para mejorar los productos de Google	Sí	No

Cómo empezar

El modelo ya está disponible en vista previa pública a través de la API de Géminis y Vertex AI con el ID de modelo gemini-embedding-2-preview. Se integra con LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB y Vector Search.

from google import genai
from google.genai import types

# For Vertex AI:
# PROJECT_ID=''
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')

client = genai.Client()

with open("example.png", "rb") as f:
    image_bytes = f.read()

with open("sample.mp3", "rb") as f:
    audio_bytes = f.read()

# Embed text, image, and audio 
result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type="image/png",
        ),
        types.Part.from_bytes(
            data=audio_bytes,
            mime_type="audio/mpeg",
        ),
    ],
)

print(result.embeddings)

¡Pruébalo aquí!

Hemos creado una aplicación de demostración en la que puedes probar el rendimiento de la recuperación multimodal de gemini-embedding-2.

Puedes obtener la Clave API accediendo a aistudio.google.com.

Limitaciones a tener en cuenta

El modelo aún está en fase de preestreno público (la etiqueta “preestreno” significa que el precio y el comportamiento pueden cambiar antes de la AG).
La entrada de vídeo tiene un límite de 120 segundos y la de audio de 80 segundos.
El rendimiento en ámbitos especializados, como la garantía de calidad financiera, es más débil; evalúalo con tus datos específicos antes de comprometerte.
Para las canalizaciones de texto puro sin planes multimodales, puede que no esté justificado el sobrecoste respecto a los modelos de sólo texto.

Lo esencial

Gemini Embedding 2 no es sólo una mejora incremental, es un cambio de categoría. Para los equipos que construyen sistemas RAG multimodales, búsquedas semánticas en distintos tipos de medios o bases de conocimiento unificadas, colapsa lo que solía ser un problema de varios modelos y tuberías en una sola llamada a la API. Si tus datos abarcan algo más que texto, éste es el modelo que debes evaluar primero.

Construir RAG multimodal no debería significar coser desde cero modelos de incrustación, bases de datos vectoriales y lógica de recuperación. Si quieres una solución gestionada de RAG como servicio que se encargue del proceso de incrustación por ti, inscríbete en la prueba gratuita de Cody y empieza a construir hoy mismo.

The post Incrustación Gemini 2: el primer modelo de incrustación multimodal de Google appeared first on Cody - The AI Trained on Your Business.

Gemini 2.5 Pro and GPT-4.5: Who Leads the AI Revolution?

Om Kamath — Wed, 26 Mar 2025 15:36:01 +0000

In 2025, the world of artificial intelligence has become very exciting, with big tech companies competing fiercely to create the most advanced AI systems ever. This intense competition has sparked a lot of new ideas, pushing the limits of what AI can do in thinking, solving problems, and interacting like humans. Over the past month, there have been amazing improvements, with two main players leading the way: Google’s Gemini 2.5 Pro and OpenAI’s GPT-4.5. In a big reveal in March 2025, Google introduced Gemini 2.5 Pro, which they call their smartest creation yet. It quickly became the top performer on the LMArena leaderboard, surpassing its competitors. What makes Gemini 2.5 special is its ability to carefully consider responses, which helps it perform better in complex tasks that require deep thinking.

Not wanting to fall behind, OpenAI launched GPT-4.5, their largest and most advanced chat model so far. This model is great at recognizing patterns, making connections, and coming up with creative ideas. Early tests show that interacting with GPT-4.5 feels very natural, thanks to its wide range of knowledge and improved understanding of what users mean. OpenAI emphasizes GPT-4.5’s significant improvements in learning without direct supervision, designed for smooth collaboration with humans.

These AI systems are not just impressive technology; they are changing how businesses operate, speeding up scientific discoveries, and transforming creative projects. As AI becomes a normal part of daily life, models like Gemini 2.5 Pro and GPT-4.5 are expanding what we think is possible. With better reasoning skills, less chance of spreading false information, and mastery over complex problems, they are paving the way for AI systems that truly support human progress.

Understanding Gemini 2.5 Pro

On March 25, 2025, Google officially unveiled Gemini 2.5 Pro, described as their “most intelligent AI model” to date. This release marked a significant milestone in Google’s AI development journey, coming after several iterations of their 2.0 models. The release strategy began with the experimental version first, giving Gemini Advanced subscribers early access to test its capabilities.

What separates Gemini 2.5 Pro from its predecessors is its fundamental architecture as a “thinking model.” Unlike previous generations that primarily relied on trained data patterns, this model can actively reason through its thoughts before responding, mimicking human problem-solving processes. This represents a significant advancement in how AI systems process information and generate responses.

Key Features and Capabilities:

Enhanced reasoning abilities – Capable of step-by-step problem solving across complex domains
Expanded context window – 1 million token capacity (with plans to expand to 2 million)
Native multimodality – Seamlessly processes text, images, audio, video, and code
Advanced code capabilities – Significant improvements in web app creation and code transformation

Gemini 2.5 Pro has established itself as a performance leader, debuting at the #1 position on the LMArena leaderboard. It particularly excels in benchmarks requiring advanced reasoning, scoring an industry-leading 18.8% on Humanity’s Last Exam without using external tools. In mathematics and science, it demonstrates remarkable competence with scores of 86.7% on AIME 2025 and 79.7% on GPQA diamond respectively.

Compared to previous Gemini models, version 2.5 Pro represents a substantial leap forward. While Gemini 2.0 introduced important foundational capabilities, 2.5 Pro combines a significantly enhanced base model with improved post-training techniques. The most notable improvements appear in coding performance, reasoning depth, and contextual understanding—areas where earlier versions showed limitations.

Exploring GPT-4.5

In April 2025, OpenAI introduced GPT-4.5, describing it as their “largest and most advanced chat model to date,” signifying a noteworthy achievement in the evolution of large language models. This research preview sparked immediate excitement within the AI community, with initial tests indicating that interactions with the model feel exceptionally natural, thanks to its extensive knowledge base and enhanced ability to comprehend user intent.

GPT-4.5 showcases significant advancements in unsupervised learning capabilities. OpenAI realized this progress by scaling both computational power and data inputs, alongside employing innovative architectural and optimization strategies. The model was trained on Microsoft Azure AI supercomputers, continuing a partnership that has enabled OpenAI to push the boundaries of possibility.

Core Improvements and Capabilities:

Enhanced pattern recognition – Significantly improved ability to recognize patterns, draw connections, and generate creative insights
Reduced hallucinations – Less likely to generate false information compared to previous models like GPT-4o and o1
Improved “EQ” – Greater emotional intelligence and understanding of nuanced human interactions
Advanced steerability – Better understanding of and adherence to complex user instructions

OpenAI has placed particular emphasis on training GPT-4.5 for human collaboration. New techniques enhance the model’s steerability, understanding of nuance, and natural conversation flow. This makes it particularly effective in writing and design assistance, where it demonstrates stronger aesthetic intuition and creativity than previous iterations.

In real-world applications, GPT-4.5 shows remarkable versatility. Its expanded knowledge base and improved reasoning capabilities make it suitable for a wide range of tasks, from detailed content creation to sophisticated problem-solving. OpenAI CEO Sam Altman has described the model in positive terms, highlighting its “unique effectiveness” despite not leading in all benchmark categories.

The deployment strategy for GPT-4.5 reflects OpenAI’s measured approach to releasing powerful AI systems. Initially available to ChatGPT Pro subscribers and developers on paid tiers through various APIs, the company plans to gradually expand access to ChatGPT Plus, Team, Edu, and Enterprise subscribers. This phased rollout allows OpenAI to monitor performance and safety as usage scales up.

Performance Metrics: A Comparative Analysis

When examining the technical capabilities of these advanced AI models, benchmark performance provides the most objective measure of their abilities. Gemini 2.5 Pro and GPT-4.5 each demonstrate unique strengths across various domains, with benchmark tests revealing their distinct advantages.

Benchmark	Gemini 2.5 Pro (03-25)	OpenAI GPT-4.5	Claude 3.7 Sonnet	Grok 3 Preview
LMArena (Overall)	#1	2	21	2
Humanity’s Last Exam (No Tools)	18.8%	6.4%	8.9%	–
GPQA Diamond (Single Attempt)	84.0%	71.4%	78.2%	80.2%
AIME 2025 (Single Attempt)	86.7%	–	49.5%	77.3%
SWE-Bench Verified	63.8%	38.0%	70.3%	–
Aider Polyglot (Whole/Diff)	74.0% / 68.6%	44.9% diff	64.9% diff	–
MRCR (128k)	91.5%	48.8%	–	–

Gemini 2.5 Pro shows exceptional strength in reasoning-intensive tasks, particularly excelling in long-context reasoning and knowledge retention. It significantly outperforms competitors on Humanity’s Last Exam, which tests the frontier of human knowledge. However, it shows relative weaknesses in code generation, agentic coding, and occasionally struggles with factuality in certain domains.

GPT-4.5, conversely, demonstrates particular excellence in pattern recognition, creative insight generation, and scientific reasoning. It outperforms in the GPQA diamond benchmark, showing strong capabilities in scientific domains. The model also exhibits enhanced emotional intelligence and aesthetic intuition, making it particularly valuable for creative and design-oriented applications. A key advantage is its reduced tendency to generate false information compared to its predecessors.

In practical terms, Gemini 2.5 Pro represents the superior choice for tasks requiring deep reasoning, multimodal understanding, and handling extremely long contexts. GPT-4.5 offers advantages in creative work, design assistance, and applications where factual precision and natural conversational flow are paramount.

Applications and Use Cases

While benchmark performances provide valuable technical insights, the true measure of these advanced AI models lies in their practical applications across various domains. Both Gemini 2.5 Pro and GPT-4.5 demonstrate distinct strengths that make them suitable for different use cases, with organizations already beginning to leverage their capabilities to solve complex problems.

Gemini 2.5 Pro in Scientific and Technical Domains

Gemini 2.5 Pro’s exceptional reasoning capabilities and extensive context window make it particularly valuable for scientific research and technical applications. Its ability to process and analyze multimodal data—including text, images, audio, video, and code—enables it to handle complex problems that require synthesizing information from diverse sources. This versatility opens up numerous possibilities across industries requiring technical precision and comprehensive analysis.

Scientific research and data analysis – Gemini 2.5 Pro’s strong performance on benchmarks like GPQA (79.7%) demonstrates its potential to assist researchers in analyzing complex scientific literature, generating hypotheses, and interpreting experimental results
Software development and engineering – The model excels at creating web applications, performing code transformations, and developing complex programs with a 63.8% score on SWE-Bench Verified using custom agent setups
Medical diagnosis and healthcare – Its reasoning capabilities enable analysis of medical imagery alongside patient data to support healthcare professionals in diagnostic processes
Big data analytics and knowledge management – The 1 million token context window (expanding soon to 2 million) allows processing of entire datasets and code repositories in a single prompt

GPT-4.5’s Excellence in Creative and Communication Tasks

In contrast, GPT-4.5 demonstrates particular strength in tasks requiring nuanced communication, creative thinking, and aesthetic judgment. OpenAI emphasized training this model specifically for human collaboration, resulting in enhanced capabilities for content creation, design assistance, and natural communication.

Content creation and writing – GPT-4.5 shows enhanced aesthetic intuition and creativity, making it valuable for generating marketing copy, articles, scripts, and other written content
Design collaboration – The model’s improved understanding of nuance and context makes it an effective partner in design processes, from conceptualization to refinement
Customer engagement – With greater emotional intelligence, GPT-4.5 provides more appropriate and natural responses in customer service contexts
Educational content development – The model excels at tailoring explanations to different knowledge levels and learning styles

Companies across various sectors are already integrating these models into their workflows. Microsoft has incorporated OpenAI’s technology directly into its product suite, providing enterprise users with immediate access to GPT-4.5’s capabilities. Similarly, Google’s Gemini 2.5 Pro is finding applications in research institutions and technology companies seeking to leverage its reasoning and multimodal strengths.

The complementary strengths of these models suggest that many organizations may benefit from utilizing both, depending on specific use cases. As these technologies continue to mature, we can expect to see increasingly sophisticated applications that fundamentally transform knowledge work, creative processes, and problem-solving across industries.

The Future of AI: What’s Next?

As Gemini 2.5 Pro and GPT-4.5 push the boundaries of what’s possible, the future trajectory of AI development comes into sharper focus. Google’s commitment to “building thinking capabilities directly into all models” suggests a future where reasoning becomes standard across AI systems. Similarly, OpenAI’s approach of “scaling unsupervised learning and reasoning” points to models with ever-expanding capabilities to understand and generate human-like content.

The coming years will likely see AI models with dramatically expanded context windows beyond the current limits, more sophisticated reasoning, and seamless integration across all modalities. We may also witness the rise of truly autonomous AI agents capable of executing complex tasks with minimal human supervision. However, these advancements bring significant challenges. As AI capabilities increase, so too does the importance of addressing potential risks related to misinformation, privacy, and the displacement of human labor.

Las consideraciones éticas deben seguir estando a la vanguardia del desarrollo de la IA. OpenAI reconoce que “cada aumento de las capacidades de los modelos es una oportunidad para hacerlos más seguros”, destacando la doble responsabilidad del avance y la protección. La comunidad de la IA tendrá que desarrollar marcos de gobernanza sólidos que fomenten la innovación y, al mismo tiempo, protejan contra el uso indebido.

La revolución de la IA representada por Gemini 2.5 Pro y GPT-4.5 no ha hecho más que empezar. Aunque el ritmo de los avances suscita tanto entusiasmo como aprensión, una cosa está clara: el futuro de la IA no se definirá sólo por las capacidades tecnológicas, sino por cómo decidamos aprovecharlas en beneficio de los seres humanos. Dando prioridad a un desarrollo responsable que aumente el potencial humano en lugar de sustituirlo, podemos garantizar que la próxima generación de modelos de IA sirva como poderosa herramienta para el progreso colectivo.

The post Gemini 2.5 Pro and GPT-4.5: Who Leads the AI Revolution? appeared first on Cody - The AI Trained on Your Business.

GPT-4.5 vs Claude 3.7 Sonnet: Una inmersión profunda en los avances de la IA

Om Kamath — Sun, 02 Mar 2025 15:52:48 +0000

El panorama de la inteligencia artificial evoluciona rápidamente, destacando dos modelos recientes: GPT-4.5 y Claude 3.7 Sonnet. Estos modelos lingüísticos avanzados representan saltos significativos en las capacidades de la IA, y cada uno de ellos aporta puntos fuertes únicos.

La GPT-4.5 de OpenAI, aunque es una actualización menor, presume de mejoras en la reducción de las alucinaciones y la mejora de la conversación natural. Por otro lado, el Sonnet Claude 3.7 de Anthropic ha llamado la atención por sus excepcionales capacidades de codificación y su rentabilidad. Ambos modelos se dirigen a una amplia gama de usuarios, desde desarrolladores e investigadores hasta empresas que buscan soluciones de IA de vanguardia.

A medida que estos modelos amplían los límites de lo que es posible en la IA, están remodelando las expectativas y las aplicaciones en diversos sectores, preparando el terreno para avances aún más transformadores en un futuro próximo.

Características principales de GPT-4.5 y Claude 3.7 Sonnet

Tanto GPT-4.5 como Claude 3.7 Sonnet aportan avances significativos al panorama de la IA, cada uno con sus puntos fuertes únicos. GPT-4.5, descrito como el “modelo más grande y con más conocimientos hasta la fecha” de OpenAI, se centra en ampliar el aprendizaje no supervisado para mejorar el conocimiento de las palabras y la intuición, reduciendo al mismo tiempo las alucinaciones. Este modelo destaca en la mejora de las capacidades de razonamiento y en la mejora de las interacciones de chat con una comprensión contextual más profunda.

Por otra parte, Claude 3.7 Sonnet introduce un innovador modelo de razonamiento híbrido, que permite tanto respuestas rápidas como un pensamiento extenso, paso a paso. Brilla especialmente en codificación y desarrollo web front-end, mostrando excelentes capacidades de seguimiento de instrucciones y razonamiento general.

Mejoras clave:

GPT-4.5: Aprendizaje no supervisado mejorado y capacidades conversacionales
Claude 3.7 Sonnet: Razonamiento híbrido avanzado y destreza de codificación superior
Ambos modelos: Capacidades multimodales mejoradas y razonamiento adaptativo

Rendimiento y evaluación

Tarea	GPT-4.5 (vs 4o)	Claude 3,7 Soneto* (vs 3,5)
Codificación	Mejora	Supera significativamente
Matemáticas	Mejora moderada	Mejor en los problemas AIME’24
Razonamiento	Rendimiento similar	Rendimiento similar
Multimodal	Rendimiento similar	Rendimiento similar

* Sin pensar mucho

GPT-4.5 ha mostrado mejoras notables en las interacciones de chat y ha reducido las alucinaciones. Los probadores humanos han evaluado que es más precisa y objetiva que los modelos anteriores, lo que la convierte en un compañero de conversación más fiable.

Claude 3.7 Sonnet, por su parte, demuestra una eficiencia excepcional en aplicaciones en tiempo real y tareas de codificación. Ha alcanzado un rendimiento puntero en SWE-bench Verified y TAU-bench, demostrando su destreza en ingeniería de software y resolución de problemas complejos. Además, su mayor rendimiento en comparación con el GPT-4.5 lo hace especialmente adecuado para tareas que requieren respuestas rápidas y el procesamiento de grandes cantidades de datos.

Fuente: Antrópico

Precios y accesibilidad

La GPT-4.5, aunque presume de unas capacidades impresionantes, tiene un precio elevado. Su precio es 75 veces superior al de su predecesor, el GPT-4, sin una justificación clara de ese aumento sustancial. Esta estrategia de precios puede limitar su accesibilidad a muchos usuarios potenciales.

En cambio, Claude 3.7 Sonnet ofrece una opción más asequible. Su estructura de precios es mucho más competitiva:

25 veces más barato para las fichas de entrada en comparación con GPT-4.5
10 veces más barato para las fichas de salida
Precios específicos: 3$ por millón de fichas de entrada y 15$ por millón de fichas de salida

En cuanto a la disponibilidad, actualmente los usuarios y desarrolladores de GPT Pro pueden acceder a GPT-4.5 a través de la API, con planes para ampliar el acceso a usuarios Plus, instituciones educativas y equipos. Claude 3.7 Sonnet, sin embargo, ofrece una accesibilidad más amplia en todos los planes de Claude (Gratuito, Pro, Equipo, Empresa), así como a través de la API Antrópica, Amazon Bedrock y Vertex AI de Google Cloud.

Estas diferencias de precio y accesibilidad repercuten significativamente en la adopción potencial y los casos de uso de cada modelo, siendo Claude 3.7 Sonnet potencialmente atractivo para un mayor número de usuarios debido a su rentabilidad y mayor disponibilidad.

Casos prácticos

Tanto GPT-4.5 como Claude 3.7 Sonnet ofrecen capacidades únicas que se adaptan a diversas aplicaciones del mundo real. GPT-4.5 destaca como interlocutor avanzado, superando a los modelos anteriores en precisión y reduciendo las alucinaciones. Su comprensión contextual mejorada lo hace ideal para la atención al cliente, la creación de contenidos y las experiencias de aprendizaje personalizadas.

Por otra parte, Claude 3.7 Sonnet brilla en el ámbito de la codificación y el desarrollo de software. Sus capacidades de codificación agéntica, demostradas a través de Claude Code, automatizan tareas como la búsqueda de código, la ejecución de pruebas y el uso de herramientas de línea de comandos. Esto lo convierte en un activo inestimable para las empresas que buscan agilizar sus procesos de desarrollo.

Perspectivas de futuro y conclusión

El lanzamiento de GPT-4.5 y Claude 3.7 Sonnet marca un hito importante en el desarrollo de la IA, sentando las bases para avances aún más revolucionarios. Aunque GPT-4.5 se considera una actualización menor, sienta las bases para futuros modelos con capacidades de razonamiento mejoradas. Claude 3.7 Sonnet, con su modelo de razonamiento híbrido, representa un cambio dinámico en el panorama de la IA, que puede influir en la dirección de futuros desarrollos.

A medida que estos modelos sigan evolucionando, podemos anticipar nuevas mejoras en el aprendizaje no supervisado, las capacidades de razonamiento y las optimizaciones específicas de las tareas. La naturaleza complementaria del aprendizaje no supervisado y del razonamiento sugiere que los futuros modelos de IA mostrarán probablemente capacidades de resolución de problemas aún más sofisticadas.

The post GPT-4.5 vs Claude 3.7 Sonnet: Una inmersión profunda en los avances de la IA appeared first on Cody - The AI Trained on Your Business.

Perplexity Comet: audaz salto a la búsqueda agéntica

Om Kamath — Thu, 27 Feb 2025 17:53:18 +0000

Perplexity, el gigante de los motores de búsqueda basados en IA, está causando sensación en el mundo de la tecnología con su última aventura: un revolucionario navegador web llamado Comet. Anunciado como “Un navegador para la búsqueda automática de Perplexity”, Comet representa un paso audaz en el competitivo mercado de los navegadores. Aunque los detalles sobre su diseño y fecha de lanzamiento permanecen en secreto, la empresa ya ha lanzado una lista de inscripción, anunciando que Comet “llegará pronto”.

Este movimiento llega en un momento de importante crecimiento para Perplexity. La empresa, valorada en unos impresionantes 9.000 millones de dólares, procesa actualmente más de 100 millones de consultas semanales a través de su motor de búsqueda. La introducción de Comet significa la ambición de Perplexity de extender su influencia más allá de la búsqueda, remodelando potencialmente la forma en que los usuarios interactúan con la web. A medida que aumenta la expectación, Comet está a punto de convertirse en un elemento fundamental del ecosistema digital en expansión de Perplexity.

Características principales de Comet

Comet aprovecha la “Búsqueda Agenética”, una potente capacidad que permite la ejecución autónoma de tareas. Esto significa que los usuarios pueden delegar en el navegador tareas complejas como reservar vuelos o gestionar reservas, mejorando significativamente la productividad.

Construido sobre una base de Chromium, Comet garantiza la compatibilidad entre plataformas, proporcionando una experiencia fluida en dispositivos de escritorio y móviles. Esta elección de diseño combina la estabilidad de la tecnología establecida de los navegadores con las innovaciones de vanguardia en IA de Perplexity.

Integración profunda de la investigación: Comet ofrece herramientas de análisis completas, que facilitan la investigación en profundidad directamente dentro del navegador.
Procesamiento de la información en tiempo real: Los usuarios se benefician de información actualizada y completa con citas de las fuentes, lo que garantiza su exactitud y credibilidad.
Amplias integraciones de aplicaciones: Con soporte para más de 800 aplicaciones, Comet pretende convertirse en un eje central para las actividades digitales de los usuarios.

Al combinar la IA con las funciones tradicionales del navegador, Comet está llamado a transformar la forma en que los usuarios interactúan con la web, alterando potencialmente el panorama de la productividad y el procesamiento de la información. En palabras de Perplexity, Comet es realmente “un navegador para la búsqueda automática”, que promete una nueva era de navegación web inteligente.

Posicionamiento estratégico y contexto de mercado

Perplexity se aventura en el competitivo mercado de los navegadores con Comet, y se enfrenta a formidables desafíos por parte de empresas consolidadas como Google Chrome y navegadores emergentes mejorados con IA, como Dia de The Browser Company. Sin embargo, el posicionamiento único de Comet como navegador basado en Chromium y potenciado por IA, con capacidades avanzadas de automatización de tareas, lo diferencia de las ofertas tradicionales.

Mientras que Google Chrome cuenta con una base masiva de usuarios y funciones básicas de IA, Comet pretende diferenciarse por sus sofisticadas capacidades de IA, amplias integraciones de aplicaciones y profundas herramientas de investigación, todo ello sin necesidad de extensiones adicionales. Este enfoque podría atraer a los usuarios que buscan una experiencia de navegación más inteligente y racionalizada, desafiando potencialmente el dominio de Chrome en ciertos segmentos.

La estrategia de marketing de Perplexity para Comet aprovecha inteligentemente su actual base de usuarios del buscador, que ya procesa más de 100 millones de consultas semanales. Aprovechando esta audiencia establecida, Perplexity pretende facilitar una adopción más fluida de Comet, dándole potencialmente una ventaja significativa en adquisición de usuarios y compromiso en el competitivo panorama de los buscadores.

Consideraciones legales y éticas

Al aventurarse en el mercado de los navegadores con Comet, Perplexity se enfrenta no sólo a retos tecnológicos, sino también a importantes obstáculos legales y éticos. Recientemente, la empresa se ha visto envuelta en disputas legales con importantes editores sobre el uso de contenidos. Dow Jones, de News Corp, y el NY Post han presentado demandas contra Perplexity, acusándola de replicación no autorizada de contenidos y tachando a la empresa de “cleptocracia de contenidos”. Además, The New York Times ha emitido un aviso de cese y desistimiento, intensificando aún más la presión legal.

En respuesta a estas acusaciones, Perplexity mantiene que respeta el contenido de los editores y ha introducido un programa de reparto de ingresos para los medios de comunicación. Esta medida parece un intento de abordar las preocupaciones y establecer una relación de mayor colaboración con los creadores de contenidos. Sin embargo, aún está por ver la eficacia de este programa para resolver disputas legales.

P: ¿Cuáles son las implicaciones éticas de la navegación web impulsada por la IA?

R: La introducción de navegadores impulsados por IA como Comet plantea importantes cuestiones éticas sobre la privacidad de los datos y la autonomía del usuario. Los analistas de ciberseguridad, como Mark Thompson, han expresado su preocupación por cómo pueden recopilarse, procesarse y potencialmente compartirse los datos del usuario cuando se utilizan herramientas de navegación impulsadas por IA. Dado que Comet promete revolucionar la interacción web mediante funciones como la búsqueda agéntica y amplias integraciones de aplicaciones, también amplifica la necesidad de prácticas transparentes en materia de datos y protecciones sólidas de la privacidad.

Opiniones de expertos y perspectivas del sector

Mientras el navegador Comet de Perplexity se prepara para entrar en el mercado, los expertos están sopesando su posible impacto e implicaciones. La Dra. Sarah Chen, destacada investigadora de IA, sugiere que Comet podría alterar fundamentalmente la forma en que los usuarios interactúan con la información en línea, gracias a sus avanzadas capacidades de búsqueda agéntica. Esta perspectiva concuerda con el rápido crecimiento de Perplexity, como demuestra el hecho de que su motor de búsqueda de IA procesa actualmente unos 100 millones de consultas semanales.

A pesar de las preocupaciones, los observadores del sector prevén un crecimiento significativo de la integración de la IA en las tecnologías web. La valoración de 9.000 millones de dólares de Perplexity y su posicionamiento como principal competidor en el espacio de los motores de búsqueda de IA subrayan esta tendencia. Mientras Comet se prepara para su lanzamiento, no sólo representa un nuevo producto, sino un cambio potencial en la forma en que percibimos e interactuamos con Internet, equilibrando la innovación con la necesidad de una implementación responsable de la IA.

¿Transformará esto la búsqueda?

La visión de la empresa de reinventar la navegación web, al igual que su enfoque de los motores de búsqueda, sugiere un futuro en el que los navegadores impulsados por la IA podrían convertirse en la norma. Con la rápida expansión de Perplexity y la introducción de productos innovadores, Comet está preparada para sacar provecho de la creciente tendencia a integrar la IA en las tecnologías web.

El mercado de los navegadores puede experimentar cambios significativos a medida que los usuarios se acostumbren a experiencias de navegación más inteligentes y orientadas a las tareas. El enfoque de Perplexity en las capacidades de búsqueda agéntica en Comet podría redefinir las interacciones digitales, agilizando potencialmente las tareas complejas en línea y remodelando los hábitos de navegación. A medida que la IA sigue impregnando diversos aspectos de la tecnología, Comet representa un audaz paso hacia un futuro en el que los navegadores web actúen como asistentes inteligentes, mejorando la productividad y transformando la forma en que navegamos por el mundo digital.

The post Perplexity Comet: audaz salto a la búsqueda agéntica appeared first on Cody - The AI Trained on Your Business.