Author: Om Kamath

Om Kamath

제미니 1.5 플래시와 GPT-4o: GPT-4o에 대한 구글의 대응은?

AI 경쟁이 치열해지면서 기술 분야의 거물급 기업들 간의 추격전이 벌어지고 있습니다. Google I/O 직전에 GPT-4o가 출시된 것은 우연이 아닙니다. 멀티모달리티, 정확히 말하면 옴니모달리티에 대한 GPT-4o의 놀라운 능력은 제너레이티브 AI 경쟁에서 상당한 영향력을 발휘했습니다. 하지만 구글은 주저하지 않습니다. Google I/O에서 Gemini와 Gemma 모델의 새로운 변형을 발표했습니다. 이번에 발표된 모든 모델 중에서 Gemini 1.5 플래시가 가장 눈에 띄는 제품입니다. 이 블로그에서는 Gemini 1.5 플래시의 주요 기능을 살펴보고 Gemini 1.5 Pro, Gemini 1.5 플래시와 GPT-4o를 비교하여 어느 것이 더 나은지 알아볼 것입니다.

Gemini 1.5 플래시와 GPT-4o 비교

Google이 공개한 벤치마크 점수에 따르면, Gemini 1.5 플래시는 Google의 다른 모든 LLM에 비해 오디오 성능이 뛰어나며 다른 벤치마크에서는 출시 예정인 Gemini 1.5 Pro(2024년 2월) 모델과 동등한 수준입니다. LLM의 성능을 평가할 때 벤치마크에 전적으로 의존하는 것은 권장하지 않지만, 성능의 차이와 사소한 업그레이드를 정량화하는 데는 도움이 됩니다. Gemini 1.5 플래시 벤치마크 방 안의 코끼리는 바로 Gemini 1.5 플래시의 가격입니다. GPT-4o에 비해 Gemini 1.5 플래시는 훨씬 더 저렴합니다. 제미니 가격

제미니 가격

GPT 가격

컨텍스트 창

Gemini 1.5 Pro와 마찬가지로, 플래시에는 100만 토큰의 컨텍스트 창이 제공되며, 이는 OpenAI 모델 중 가장 큰 규모이며 프로덕션급 LLM을 위한 최대 컨텍스트 창 중 하나입니다. 컨텍스트 창이 커지면 더 많은 데이터를 이해할 수 있고 청크 크기를 늘려 대규모 지식창고가 있는 사용 사례의 경우 RAG(검색 증강 생성)와 같은 타사 기술을 개선할 수 있습니다. 또한 컨텍스트 창이 커지면 더 많은 텍스트를 생성할 수 있으므로 기사, 이메일, 보도자료 작성과 같은 시나리오에 유용합니다.

멀티모달리티

Gemini-1.5 플래시는 멀티모달입니다. 멀티모달리티를 사용하면 오디오, 비디오, 문서 등의 형태로 컨텍스트를 입력할 수 있습니다. 멀티 모달리티를 갖춘 LLM은 전처리 없이도 더 다양한 활용이 가능하며, 제너레이티브 AI를 더 많이 적용할 수 있는 가능성을 열어줍니다.

“Gemini 1.5 모델은 매우 긴 컨텍스트를 처리할 수 있도록 구축되었으며, 최대 1,000만 개 이상의 토큰에서 세분화된 정보를 기억하고 추론할 수 있는 기능을 갖추고 있습니다. 이러한 규모는 최신 대규모 언어 모델(LLM) 중에서는 전례가 없는 것으로, 전체 문서 모음, 몇 시간 분량의 비디오, 거의 5일 분량의 오디오 등 긴 형식의 혼합 양식 입력을 처리할 수 있습니다.” – 딥마인드 보고서

멀티모달리티

다바스 = 힌디어로 기차 코치. 멀티모달리티 및 다국어 성능 시연.

또한 멀티모달리티를 갖추면 다른 전문 서비스를 대신하여 LLM을 사용할 수 있습니다. 예를 들어 OCR 또는 웹 스크래핑. 쌍둥이 자리의 OCR

웹 페이지에서 데이터를 쉽게 스크랩하고 변환할 수 있습니다.

속도

Gemini 1.5 플래시는 이름에서 알 수 있듯이 응답 시간 측면에서 다른 모델보다 우위를 점할 수 있도록 설계되었습니다. 위에서 언급한 웹 스크래핑의 예에서 약 2.5초의 응답 시간 차이가 있으며, 이는 거의 40% 더 빠르므로 자동화 사용 또는 짧은 지연 시간이 필요한 모든 사용 사례에서 Gemini 1.5 플래시가 더 나은 선택이 될 수 있습니다. Gemini 1.5 Pro의 속도

Gemini 1.5 Flash의 몇 가지 흥미로운 사용 사례

동영상 요약


비디오를 사용하여 코드 작성

게임플레이 자동화

GPT-4o: OpenAI, 사용자에게 무료로 제공되는 최신 언어 모델 공개

GPT-4o

소셜 미디어와 기타 포럼에서 OpenAI가 우리를 위해 무엇을 준비했는지에 대한 수많은 추측이 난무한 가운데, 어제 OpenAI는 마침내 지금까지 가장 강력한 최신 LLM인 GPT-4o(‘옴니’의 ‘o’는 옴니)를 공개했습니다. GPT-4o의 출시 이벤트를 놓치신 분들을 위해 GPT-4o의 기능과 제공되는 기능에 대해 살펴보겠습니다.

향상된 오디오, 텍스트 및 시각 기능

GPT-4 Turbo는 강력한 모델이지만 지연 시간이라는 한 가지 단점이 있습니다. GPT-3.5 터보와 비교했을 때 GPT-4 터보는 여전히 상당히 느립니다. GPT-4o는 이러한 단점을 해결하고 GPT-4 터보보다 2배 더 빠릅니다. 이를 통해 음성, 텍스트, 시각의 데이터를 통합하여 멀티 모달에서 옴니 모달로 한 단계 더 나아가는 광범위한 사용 사례가 가능해집니다. 멀티모달과 옴니모달의 주요 차이점은 옴니모달에서는 세 가지 소스를 모두 병렬로 원활하게 실행할 수 있다는 점입니다.

이러한 향상된 기능을 통해 모델은 향상된 음성 변조, 풍자를 이해하는 기능, 향상된 자연스러운 대화 능력을 갖춘 음성을 생성할 수 있습니다.

가격 인하 및 ChatGPT 사용자에게 무료 제공

GPT-4o는 기존 GPT-4 터보에 비해 더 효율적이고 빠르지만, GPT-4 터보의 절반 가격(API)으로, 입력 토큰은 5.00달러/1백만 개, 출력 토큰은 15.00달러/1백만 개에 불과합니다. 더 나은 가격 책정으로 이제 컨텍스트 창은 128만 토큰이며, 지식 마감일은 2023년 10월입니다.

또한, 모든 ChatGPT 사용자는 GPT-4o를 무료로 사용할 수 있습니다(ChatGPT 플러스 사용자는 GPT-4o의 5배 한도가 적용됩니다). 이와 함께 OpenAI는 사용자가 화면에 표시되는 콘텐츠를 읽고 이해하기 위해 GPT-4o의 비전 기능을 활용할 수 있는 ChatGPT 데스크톱 앱도 공개했습니다. 사용자는 데스크톱 앱을 사용하여 ChatGPT와 대화할 수도 있습니다.

GPT-4o 데모

 

OpenAI는 향후 몇 주에 걸쳐 단계적으로 GPT-4o에 대한 액세스를 출시할 예정이며, ChatGPT Plus 사용자는 우선적으로 이 모델에 조기 액세스 할 수 있다고 밝혔습니다. 앞으로 몇 주 안에 이 모델을 사용해봐야 이 모델의 진정한 잠재력을 파악할 수 있을 것입니다. 앞으로의 흥미로운 시간!

그루크와 라마 3: 판도를 바꾸는 듀오

몇 달 전, ‘Groq’이라는 새로운 회사가 갑자기 등장해 AI 업계에 혁신을 일으켰습니다. 이들은 개발자들이 LLM, 특히 라마, 믹스트랄, 젬마와 같은 오픈 소스 엔진의 추론 엔진으로서 LPU에 액세스할 수 있는 플랫폼을 제공했습니다. 이 블로그에서는 Groq이 특별한 이유를 살펴보고 LPU의 놀라운 기능에 대해 자세히 알아보세요.

Groq이란 무엇인가요?

“Groq은 GenAI 추론 속도의 표준을 정립하여 오늘날 실시간 AI 애플리케이션을 실현하는 데 기여하는 것을 사명으로 삼고 있습니다.” – Groq 웹사이트

Groq은 GPT나 Gemini와 같은 LLM을 개발하는 회사가 아닙니다. 대신 Groq은 이러한 대규모 언어 모델의 기반, 즉 작동하는 하드웨어를 개선하는 데 집중합니다. ‘추론 엔진’ 역할을 합니다. 현재 시장에 나와 있는 대부분의 LLM은 프라이빗 서버나 클라우드에 배포된 기존 GPU를 활용합니다. 이러한 GPU는 엔비디아 같은 회사에서 공급하는 고가의 강력한 제품이지만, 여전히 전통적인 GPU 아키텍처에 의존하기 때문에 LLM 추론에 최적으로 적합하지 않을 수 있습니다(여전히 강력하고 훈련 모델에 선호되지만).

Groq에서 제공하는 추론 엔진은 LPU(언어 처리 장치)에서 작동합니다.

LPU란 무엇인가요?

언어 처리 장치는 LLM을 위해 특별히 설계된 칩으로, CPU와 GPU를 결합한 고유한 아키텍처를 기반으로 구축되어 LLM용 AI 솔루션의 속도, 예측 가능성, 성능 및 정확성을 혁신합니다.

Groq의 LPU 언어 처리 장치

LPU 시스템의 주요 속성. 크레딧: Groq

LPU 시스템은 그래픽 프로세서(GPU)만큼 또는 그 이상의 연산 능력을 갖추고 있으며, 단어당 계산 시간을 줄여 텍스트 시퀀스를 더 빠르게 생성할 수 있습니다.

Groq 웹사이트에 나와 있는 LPU 추론 엔진의 특징:

  • 탁월한 순차적 성능
  • 단일 코어 아키텍처
  • 대규모 배포 시에도 유지되는 동기식 네트워킹
  • 자동 컴파일 기능( >50B LLM)
  • 즉각적인 메모리 액세스
  • 낮은 정밀도 수준에서도 유지되는 높은 정확도

Groq에서 제공하는 서비스:

  1. GroqCloud: 클라우드의 LPU
  2. GroqRack: 최대 64개의 칩이 상호 연결된 42U 랙
  3. GroqNode: 4U 랙 지원 확장형 컴퓨팅 시스템으로, 8개의 상호 연결된 GroqCard™ 가속기를 갖추고 있습니다.
  4. GroqCard: 표준 PCIe 4×16 폼 팩터의 단일 칩으로 번거로움 없는 서버 통합을 제공합니다.

“AI와 완전히 다른 유형의 작업을 수행하도록 설계된 CPU나 우연히 AI와 비슷한 작업을 수행하도록 CPU를 기반으로 설계된 GPU, 또는 AI에 더 적합하도록 GPU를 수정한 TPU와 달리, Groq은 처음부터 처음부터 AI를 위한 컴퓨터 시스템입니다.”- Daniel Warfield, Towards Data Science.

LPU가 GPU, TPU 및 CPU와 어떻게 다른지 자세히 알아보려면 Daniel Warfield가 Towards Data Science에 작성한 이 종합적인 글을 읽어보시기 바랍니다.

Groq의 요점은 무엇인가요?

LLM은 비정형 데이터 구문 분석부터 고양이의 귀여움에 대한 질문에 답하는 것까지 다양한 작업을 수행할 수 있는 매우 강력한 기능입니다. 그러나 현재 가장 큰 단점은 응답 시간입니다. 응답 시간이 느리면 백엔드 프로세스에서 LLM을 사용할 때 상당한 지연 시간이 발생합니다. 예를 들어, 데이터베이스에서 데이터를 가져와 JSON 형식으로 표시하는 작업은 현재 변환을 위해 LLM을 통해 데이터를 전달하는 것보다 기존 로직을 사용하는 것이 훨씬 빠릅니다. 그러나 LLM의 장점은 데이터 예외를 이해하고 처리하는 능력에 있습니다.

Groq이 제공하는 놀라운 추론 속도를 활용하면 LLM의 이러한 단점을 크게 줄일 수 있습니다. 이렇게 하면 LLM의 사용 사례가 더 넓어지고 비용을 절감할 수 있으며, LPU를 사용하면 훨씬 저렴하고 응답 시간이 매우 빠른 오픈 소스 모델을 배포할 수 있습니다.

Groq의 라마 3

몇 주 전 메타는 이미 강력하고 뛰어난 성능을 자랑하는 오픈 소스 LLM-Llama 3의 최신 버전을 공개했습니다. 속도, 데이터 이해도, 토큰 생성 등 일반적인 개선 사항과 함께 두 가지 중요한 개선 사항이 눈에 띕니다:

  1. 라마 2보다 7배 더 큰 데이터 세트와 4배 더 많은 코드에 대해 학습했습니다.
  2. 컨텍스트 길이를 8,000토큰으로 두 배 늘렸습니다.

라마 2는 이미 강력한 오픈소스 LLM이었지만, 이 두 가지 업데이트를 통해 라마 3의 성능이 크게 향상될 것으로 예상됩니다.

라마 3 벤치마크

라마 3 벤치마크

라마 3를 테스트하려면 메타 AI 또는 Groq 플레이그라운드를 이용할 수 있습니다. Llama 3로 테스트하여 Groq의 성능을 보여드리겠습니다.

그루크 플레이그라운드

현재 그루크 놀이터에서는 젬마 7B, 라마 3 70B 및 8B, 믹스트랄 8x7b를 무료로 이용할 수 있습니다. 플레이그라운드에서는 온도, 최대 토큰, 스트리밍 토글 등의 매개변수를 조정할 수 있습니다. 또한 JSON 출력만 생성하는 전용 JSON 모드가 있습니다.

901토큰/s의 속도로 추론하는 데 402ms밖에 걸리지 않습니다.

901토큰/s의 속도로 추론하는 데 402ms밖에 걸리지 않습니다.

901토큰/s의 속도로 추론하는 데 402ms밖에 걸리지 않습니다.

제 생각에 가장 영향력 있는 도메인/애플리케이션으로 데이터 추출 및 변환을 꼽을 수 있습니다:

모델에 유용한 정보를 추출하도록 요청하고 JSON 모드를 사용하여 JSON을 제공합니다.

모델에 유용한 정보를 추출하도록 요청하고 JSON 모드를 사용하여 JSON을 제공합니다.

추출 및 JSON 형식으로의 변환은 0.5초 이내에 완료되었습니다.

추출 및 JSON 형식으로의 변환은 0.5초 이내에 완료되었습니다.

결론

앞서 살펴본 바와 같이, Groq은 혁신적인 LPU 추론 엔진으로 LLM 업계의 판도를 바꾸는 기업으로 부상했습니다. 여기에 소개된 빠른 변화는 AI 애플리케이션을 가속화할 수 있는 엄청난 잠재력을 암시합니다. 앞으로 Groq의 혁신에 대해 추측할 수 있을 뿐입니다. 이미지 처리 장치는 이미지 생성 모델에 혁신을 일으켜 AI 동영상 생성의 발전에 기여할 수 있습니다. 정말 기대되는 미래입니다.

앞으로 LLM 교육이 더욱 효율적으로 진행됨에 따라 로컬 디바이스의 데이터로 미세 조정된 개인화된 ChatGPT를 사용할 수 있는 잠재력이 더욱 커질 것입니다. 이러한 기능을 제공하는 플랫폼 중 하나는 다양한 측면에서 비즈니스를 지원하기 위해 맞춤화된 지능형 AI 어시스턴트인 Cody입니다. ChatGPT와 마찬가지로 코디는 고유한 지식 기반을 사용하여 비즈니스 데이터, 팀, 프로세스 및 고객에 대한 교육을 받을 수 있습니다.

코디를 통해 기업은 AI의 힘을 활용하여 각자의 필요에 맞는 개인화된 지능형 비서를 만들 수 있으며, 이는 AI 기반 비즈니스 솔루션의 세계를 더욱 확장할 수 있는 유망한 솔루션이 될 것입니다.

2024년 무료 오픈 소스 LLM 상위 5가지

LLM은 이제 소개할 필요가 없을 정도로 보편화되어 있습니다. 기술 업계에 종사하든 그렇지 않든, 매일 어떤 형태의 LLM을 접했거나 현재 사용하고 있을 가능성이 높습니다. 현재 가장 눈에 띄는 LLM으로는 OpenAI의 GPT, Anthropic의 클로드, Google의 제미니가 있습니다.

그러나 이러한 인기 있는 LLM은 추상적이거나 블랙박스 시스템으로 운영되는 경우가 많아 데이터 프라이버시 및 투명성에 대한 우려가 제기되고 있습니다. 이러한 문제를 해결하기 위해 사용자가 안심하고 개인 컴퓨터나 서버에 배포할 수 있는 여러 오픈 소스 LLM을 사용할 수 있습니다.

오픈 소스란 소스 코드를 자유롭게 검사, 수정 및 배포할 수 있도록 배포된 소프트웨어 또는 제품을 말합니다. 이러한 접근성을 통해 사용자는 소프트웨어를 이해하고, 개선하고, 개발에 기여할 수 있습니다.

현재 사용 가능한 최고의 오픈 소스 LLM을 소개합니다:

라마 2

LLaMA 2: 메타의 오픈 소스 AI 모델

Llama 2는 Meta에서 개발한 오픈 소스 LLM으로, 상업 및 연구 목적으로 무료로 제공됩니다. 라마 2 모델은 2조 개의 토큰으로 훈련되었으며, 라마 1보다 컨텍스트 길이가 두 배 더 깁니다.

모델의 매개 변수는 텍스트 이해 능력에 직접적인 영향을 미치며, 모델이 클수록 크기와 리소스 요구 사항이 증가하는 대신 더 나은 성능을 제공합니다.

사용 가능한 변형: 7B, 13B 및 70B 파라미터

컨텍스트 창: 4096 토큰

지원 언어: 영어에서 가장 잘 수행

Mixtral 8x7B

미스트랄 AI, GPT 3.5와 동등한 수준의 오픈 소스 LLM인 Mixtral 8x7B를 공개합니다.

미스트랄 AI가 개발한 Mixtral 8x7B는 총 467억 개의 파라미터를 포함하는 LLM입니다. 크기는 작지만 추론 속도와 비용은 3분의 1 크기의 모델과 비슷하게 유지합니다. 이 디코더 전용 MoE(전문가 혼합) 모델은 특정 벤치마크에서 LLama 2 및 GPT-3.5보다 훨씬 뛰어난 성능을 발휘합니다.

사용 가능한 변형: 소형, 소형, 중형, 대형(비용 효율적부터 고성능까지 순위)

컨텍스트 창: 32000 토큰(미스트랄 대형)

지원 언어: 영어, 프랑스어, 스페인어, 독일어, 이탈리아어(미스트랄 라지)

Falcon

UAE의 기술 혁신 연구소, 연구 및 상업적 활용을 위한 오픈 소스

아부다비의 기술 혁신 연구소(TII)에서 개발한 Falcon은 또 다른 대표적인 오픈 소스 LLM입니다. 출시 후 Falcon 40B는 두 달 동안 Hugging Face의 오픈 소스 LLM(대규모 언어 모델) 리더보드에서 1위를 차지했습니다. 180B 변형을 통해 TII는 모델의 지식과 데이터 이해 능력을 더욱 향상시킵니다. Falcon 180B는 3조 5천억 개의 토큰으로 학습된 초강력 언어 모델입니다.

사용 가능한 변형: Falcon 40B 및 Falcon 180B

컨텍스트 창: 4096 토큰

지원 언어: 영어, 독일어, 스페인어, 프랑스어, 이탈리아어, 포르투갈어, 폴란드어, 네덜란드어, 루마니아어, 체코어, 스웨덴어는 제한적으로 지원됩니다.

BLOOM

BLOOM

BLOOM은 Big Science에서 개발한 자동 회귀 대규모 언어 모델(LLM)입니다. 176억 개의 파라미터로 학습된 BLOOM은 방대한 양의 텍스트 데이터와 산업 규모의 컴퓨팅 리소스를 사용하여 프롬프트에서 텍스트 연속을 생성하는 데 탁월합니다.

사용 가능한 변형: bloom-560m, bloom-1b1, bloom-1b7, bloom-3b, bloom-7b1, bloom 176B

컨텍스트 창: 2048 토큰

지원 언어: 46개 자연어(영어의 경우 30%에서 치툼부카의 경우 0.00002%까지 데이터 양에 따라 다름)

Gemma

Gemma] 데이터 과학을 위한 AI 어시스턴트 구축하기 🤖

Gemini의 성공을 잇는 Google의 최신 최신 개방형 LLM인 Gemma가 그 뒤를 잇습니다. Gemma는 Gemini 연구 및 기술을 기반으로 구축된 Google 딥마인드의 오픈 가중치 대규모 언어 모델(LLM) 제품군입니다. 모델 가중치는 자유롭게 액세스할 수 있지만, 구체적인 사용 약관, 재배포 및 변형 소유권은 다를 수 있으며 오픈 소스 라이선스를 기반으로 하지 않을 수도 있습니다.

사용 가능한 변형: 젬마 2B 및 젬마 7B

컨텍스트 창: 8192 토큰

지원되는 언어: 영어

결론

코디는 LLM과 관련하여 모델에 구애받지 않는 접근 방식을 우선시하며, 고유한 사용 사례에 맞는 개인화된 봇을 구축할 수 있는 플랫폼을 제공합니다. 다양한 LLM 옵션이 제공되므로 단일 제공업체에 국한되지 않고 요구 사항에 가장 적합한 것을 자유롭게 선택할 수 있습니다.

코디를 통해 기업은 AI를 활용하여 정확한 요구 사항에 맞는 지능형 비서를 개발할 수 있습니다. 이러한 유연성으로 인해 코디는 AI 기반 비즈니스 솔루션 영역에서 유망한 추가 기능이 될 수 있습니다.

ChatGPT 킬러? 제미니 1.5가 구글의 AI 미래에 주는 의미

구글과 OpenAI: 구글이 이기는가?

AI 과대 광고에서 Bard를 놓친 Google은 최근 최신 AI 제품인 Gemini를 공개했습니다. 이번 출시의 일환으로 Bard는 Gemini로 브랜드가 변경되었으며 이제 새로운 Gemini Pro LLM을 통합했습니다. 이러한 변화의 정도를 파악하기 위해 더 자세히 살펴보겠습니다.

제미니 AI란 무엇인가요?

Gemini는 LaMDA와 PaLM의 출시에 이은 Google의 최신 대규모 언어 모델(LLM)입니다. 이전 버전과 달리 Gemini는 기본적으로 텍스트, 이미지, 음성 및 코드를 이해할 수 있는 멀티 모달을 지원하며, 향상된 이해력과 추론 능력을 자랑합니다.

제미니 AI의 변형

Gemini AI는 세 가지 대형 언어 모델로 구성되어 있습니다:

  1. 제미니 나노: 온디바이스 효율성에 최적화되어 개인 디바이스에서 직접 신속한 AI 솔루션을 제공합니다.
  2. 제미니 프로: 강력한 성능으로 다양한 작업을 처리하는 데 능숙한 다목적 확장형 모델입니다. Gemini 채팅 인터페이스의 무료 버전에서 액세스할 수 있습니다.
  3. Gemini Ultra: Gemini 시리즈의 정점으로, 복잡한 문제 해결을 지원하고 AI 기능의 한계를 발전시키는 제품입니다. Google One AI 프리미엄 요금제 가입자에게만 제공됩니다.

제미니 모델은 크기와 구성에 따라 TPUv5e 및 TPUv4를 사용하여 학습했습니다. Gemini Ultra 교육에는 여러 데이터 센터에 걸쳐 Google이 소유한 대규모 TPUv4 가속기를 사용했습니다. 이는 새로운 인프라 문제를 야기했던 이전 플래그십 모델인 PaLM-2에 비해 규모가 크게 증가한 것입니다.

Gemini와 다른 LLM 비교

텍스트 이해

Gemini와 다른 LLM의 비교

출처: 구글 딥마인드

이미지 이해

Gemini와 다른 LLM의 비교

출처: 구글 딥마인드

여기에서 자세히 알아보세요.

쌍둥이 자리의 장점

1. 모든 Google 앱과 원활하게 통합

이제 Gemini는 지도, YouTube, Gmail 등을 포함한 모든 Google 앱과 원활하게 통합됩니다. 특정 앱을 쿼리하려면 앱 이름 앞에 ‘@’를 붙인 다음 쿼리어를 입력하면 됩니다. GPT 및 플러그인을 사용하여 ChatGPT에서도 유사한 통합을 달성할 수 있지만, Gemini의 기본 통합과 같은 수준의 매끄러움을 제공하지는 못할 수도 있습니다.

제미니 통합

검색 엔진 기술에 대한 Google의 유명한 전문성은 의심할 여지없이 Gemini의 웹 브라우징 기능을 향상시키는 데까지 확장됩니다. 검색 알고리즘과 인덱싱의 기본 강점을 활용하는 Gemini는 사용자에게 원활하고 효율적인 브라우징 환경을 제공합니다.

2. 멀티모달 기능

이제 Gemini 채팅 인터페이스에서 이미지 이해를 포함한 멀티모달 기능을 추가 비용 없이 제공합니다. 테스트 중 성능은 괜찮았지만 GPT-4V의 정확도에는 미치지 못할 수 있습니다. 그럼에도 불구하고 무료 서비스라는 점을 감안하면 불평할 수는 없겠죠? 😉 지표에 따라 Gemini Ultra가 GPT-4V를 능가할 가능성이 있습니다.

제미니 멀티모달

3. 취미 활동가 및 학생 무료 액세스

이 분야에 뛰어들고 싶지만 비용 때문에 GPT API에 액세스하는 데 제약이 있는 야심 찬 LLM 개발자를 위해 Google은 Gemini Pro 1.0 API에 대한 무료 액세스를 제공합니다. 이를 통해 무료 웹 기반 개발자 도구인 Google AI Studio에서 분당 최대 60개의 쿼리를 수행할 수 있습니다. Google AI Studio를 사용하면 신속하게 프롬프트를 개발하고 앱 개발을 위한 API 키를 얻을 수 있습니다. Google 계정으로 Google AI 스튜디오에 로그인하면 이 무료 할당량을 활용할 수 있습니다. LLM 여정을 시작하고 임베딩, 벡터 데이터베이스, 시맨틱 검색 등을 살펴볼 수 있는 좋은 기회입니다.

Google AI 스튜디오

4. 가격 대비 가치

한 달에 20달러만 내면 ChatGPT Plus를 통해 GPT-4에 액세스할 수 있습니다. 또는 같은 가격으로 2TB의 클라우드 저장 공간과 Gmail 및 문서 등의 Google 앱과의 통합 등의 추가 혜택이 포함된 Gemini Ultra 1.0과 함께 Gemini Advanced를 이용할 수 있습니다. 하지만 Gemini Advanced에 액세스하려면 Google One AI 프리미엄 요금제에 가입해야 합니다. 이러한 요구 사항에도 불구하고 비용 대비 더 큰 가치를 제공합니다.

Google 원 요금제

스탠다드 요금제와 프리미엄 요금제 사이에 500GB의 저장 용량과 Gemini Advanced에 액세스할 수 있는 중간 요금제를 도입하면 특히 학생과 중간 정도의 저장 용량 요구 사항을 가진 사용자의 Gemini 접근성이 크게 향상될 것입니다. 구글, 듣고 계신다면 이 제안을 고려해 주세요.

제미니의 다음 계획은 무엇인가요?

구글의 딥마인드는 최근 일주일 전에 Gemini Pro 1.5를 출시하는 등 Gemini 모델을 지속적으로 발전시키고 있습니다. 이 업데이트된 버전에서는 컨텍스트 창이 128,000 토큰으로 확장되었습니다. 또한, 일부 개발자 및 기업 고객 그룹은 이제 AI Studio 및 Vertex AI의 비공개 미리보기를 통해 최대 100만 토큰의 훨씬 더 큰 컨텍스트 창을 실험할 수 있습니다. 일반적인 논픽션 책에는 약 30만 개의 토큰이 포함되어 있습니다. Gemini Pro 1.5의 100만 토큰 컨텍스트 창을 통해 사용자는 이제 쿼리 요청 시 전체 장부를 업로드할 수 있으며, 이는 GPT-4의 128,000 토큰 컨텍스트 창에 비해 괄목할 만한 발전입니다.

AI 업계에서 LLM이 포화 상태인 가운데 구글은 이번에 향상된 아키텍처, 신속한 대응, 구글 생태계 내 원활한 통합을 통해 금빛 성공을 거둔 것으로 보입니다. 이는 실제로 올바른 방향으로 나아가는 한 걸음이 될 수 있으며, OpenAI와 다른 경쟁자들을 긴장하게 만들 수 있습니다.

AI 시대에 기업은 잘 훈련된 직원을 확보하는 것이 매우 중요하며, 직원 교육에 AI를 도입하는 것은 상당한 투자가 될 수 있습니다. 직원 교육을 위한 AI 솔루션을 찾고 있다면 Cody가 적합한 도구입니다. ChatGPT 및 Gemini와 마찬가지로 Cody는 고유한 지식 기반을 사용하여 비즈니스 데이터, 팀, 프로세스 및 고객에 대해 학습할 수 있습니다. Cody는 모델에 구애받지 않으므로 요구 사항에 따라 모델을 쉽게 전환할 수 있습니다.

코디를 통해 기업은 AI의 힘을 활용하여 각자의 필요에 맞는 개인화된 지능형 비서를 만들 수 있으며, 이는 AI 기반 비즈니스 솔루션의 세계를 더욱 확장할 수 있는 유망한 솔루션이 될 것입니다.

비즈니스에 AI 직원을 채용해야 하는 3가지 강력한 이유

Revolutionize your workplace with AI

오늘날 비즈니스에 AI 직원이 필요한 이유

현대 업무 환경에서 ChatGPT와 같은 AI 솔루션의 혁신적 힘을 부인할 수 없습니다. 이메일 초안 작성 간소화부터 정신 건강 지원까지, ChatGPT는 일상 업무에 접근하는 방식을 혁신적으로 바꾸고 있습니다. 하지만 특정 비즈니스 지식창고에 대한 사용자 지정이 부족하다는 등의 한계가 없는 것은 아닙니다. 코딩이 필요 없는 번거로움 없는 솔루션으로 조직에 최고의 AI를 도입할 수 있는 Cody를 만나보세요.

AI가 조직에 도움이 되는 세 가지 방법을 살펴보세요:

교육: 정적 교육에서 동적 교육으로

기존의 교육 방법에는 종종 정적이고 사전 정의된 흐름이 포함되는데, 이는 참여도가 떨어질 뿐만 아니라 비즈니스 요구사항에 꼭 맞지도 않습니다. AI를 활용하면 직원 교육 프로그램에 역동성과 상호 작용을 더할 수 있습니다.

Cody를 사용하면 PDF든 Word 문서든 기존 교육 문서를 업로드하는 것만큼이나 간단합니다. 미리 만들어진 봇 템플릿 중에서 선택하거나 고급 봇 빌더를 사용하여 코디의 개성을 원하는 대로 커스터마이징할 수 있습니다. 몇 가지 간단한 단계만 거치면 각 직원의 요구 사항을 충족하는 맞춤형 온보딩 코치를 확보하여 교육 프로그램의 효과와 직관성을 높일 수 있습니다.

검색: 지식 접근성 높이기

직원들이 데이터를 검색하는 데 오랜 시간을 소비한다면 잘 문서화된 비즈니스 지식 기반이 무슨 소용이 있을까요? Cody와 같은 AI 기반 솔루션은 내부 검색 엔진처럼 작동하여 조직 내에서 정보에 액세스하는 방식을 혁신합니다.

비즈니스 지식이 코디에 업로드되면 자연어로 작성된 모든 쿼리는 특정 데이터에서 생성된 정확하고 일관된 응답을 통해 충족됩니다. 24시간 연중무휴로 모든 문의를 처리할 수 있는 전문가가 상주하는 것과 같습니다. 끝없는 데이터를 목적 없이 검색하던 시대는 지났습니다.

자동화: 자동화: 워크플로 간소화

최신 업데이트를 통해 자동화를 한 단계 더 발전시킬 수 있습니다. 이제 Cody는 Zapier와 원활하게 통합되어 효율적일 뿐만 아니라 사용자 친화적인 AI 기반의 자동화된 워크플로우를 구축할 수 있습니다. 일상적인 작업을 자동화하면 직원들이 더 의미 있는 업무에 집중할 수 있습니다. 또한 코디의 AI 기능을 통해 생성된 콘텐츠는 사람이 제작할 수 있는 콘텐츠와 동등하거나 더 나은 수준입니다.

재피어는 코디를 5,000개 이상의 앱과 연결할 수 있는 도구로, 무한한 가능성의 세계를 열어줍니다.

미래는 지금, 그리고 코디입니다.

교육, 검색, 워크플로 자동화에 미치는 영향에 초점을 맞춰 업무 환경에서 AI의 혁신적 힘을 자세히 살펴봤습니다. 코디와 같은 플랫폼을 통해 미래는 먼 현실이 아니라 바로 지금 여기에서 일어나고 있습니다. AI의 통합은 운영 효율성을 간소화할 뿐만 아니라 비용을 의미 있게 절감하고 직원 만족도를 높일 수 있습니다.

그렇다면 왜 기다릴까요? 확장을 모색하는 스타트업이든 현대화를 목표로 하는 기존 기업이든, 지금이 바로 AI 솔루션을 도입하기에 완벽한 시기입니다. 매력적인 혜택과 입증된 실적을 갖춘 Cody는 미래의 업무로 도약하고자 하는 사람들에게 번거로움이 없는 노코드 옵션을 제공합니다.

업무 환경의 역동성을 혁신할 수 있는 기회를 놓치지 마세요. 여기를 클릭하여 코디와 함께 여정을 시작하고 불가능하다고 생각했던 효율성과 혁신의 세계를 발견하세요.