제미니 1.5 플래시와 GPT-4o: GPT-4o에 대한 구글의 대응은?
AI 경쟁이 치열해지면서 기술 분야의 거물급 기업들 간의 추격전이 벌어지고 있습니다. Google I/O 직전에 GPT-4o가 출시된 것은 우연이 아닙니다. 멀티모달리티, 정확히 말하면 옴니모달리티에 대한 GPT-4o의 놀라운 능력은 제너레이티브 AI 경쟁에서 상당한 영향력을 발휘했습니다. 하지만 구글은 주저하지 않습니다. Google I/O에서 Gemini와 Gemma 모델의 새로운 변형을 발표했습니다. 이번에 발표된 모든 모델 중에서 Gemini 1.5 플래시가 가장 눈에 띄는 제품입니다. 이 블로그에서는 Gemini 1.5 플래시의 주요 기능을 살펴보고 Gemini 1.5 Pro, Gemini 1.5 플래시와 GPT-4o를 비교하여 어느 것이 더 나은지 알아볼 것입니다.
Gemini 1.5 플래시와 GPT-4o 비교
Google이 공개한 벤치마크 점수에 따르면, Gemini 1.5 플래시는 Google의 다른 모든 LLM에 비해 오디오 성능이 뛰어나며 다른 벤치마크에서는 출시 예정인 Gemini 1.5 Pro(2024년 2월) 모델과 동등한 수준입니다. LLM의 성능을 평가할 때 벤치마크에 전적으로 의존하는 것은 권장하지 않지만, 성능의 차이와 사소한 업그레이드를 정량화하는 데는 도움이 됩니다. 방 안의 코끼리는 바로 Gemini 1.5 플래시의 가격입니다. GPT-4o에 비해 Gemini 1.5 플래시는 훨씬 더 저렴합니다.
컨텍스트 창
Gemini 1.5 Pro와 마찬가지로, 플래시에는 100만 토큰의 컨텍스트 창이 제공되며, 이는 OpenAI 모델 중 가장 큰 규모이며 프로덕션급 LLM을 위한 최대 컨텍스트 창 중 하나입니다. 컨텍스트 창이 커지면 더 많은 데이터를 이해할 수 있고 청크 크기를 늘려 대규모 지식창고가 있는 사용 사례의 경우 RAG(검색 증강 생성)와 같은 타사 기술을 개선할 수 있습니다. 또한 컨텍스트 창이 커지면 더 많은 텍스트를 생성할 수 있으므로 기사, 이메일, 보도자료 작성과 같은 시나리오에 유용합니다.
멀티모달리티
Gemini-1.5 플래시는 멀티모달입니다. 멀티모달리티를 사용하면 오디오, 비디오, 문서 등의 형태로 컨텍스트를 입력할 수 있습니다. 멀티 모달리티를 갖춘 LLM은 전처리 없이도 더 다양한 활용이 가능하며, 제너레이티브 AI를 더 많이 적용할 수 있는 가능성을 열어줍니다.
“Gemini 1.5 모델은 매우 긴 컨텍스트를 처리할 수 있도록 구축되었으며, 최대 1,000만 개 이상의 토큰에서 세분화된 정보를 기억하고 추론할 수 있는 기능을 갖추고 있습니다. 이러한 규모는 최신 대규모 언어 모델(LLM) 중에서는 전례가 없는 것으로, 전체 문서 모음, 몇 시간 분량의 비디오, 거의 5일 분량의 오디오 등 긴 형식의 혼합 양식 입력을 처리할 수 있습니다.” – 딥마인드 보고서
다바스 = 힌디어로 기차 코치. 멀티모달리티 및 다국어 성능 시연.
또한 멀티모달리티를 갖추면 다른 전문 서비스를 대신하여 LLM을 사용할 수 있습니다. 예를 들어 OCR 또는 웹 스크래핑.
웹 페이지에서 데이터를 쉽게 스크랩하고 변환할 수 있습니다.
속도
Gemini 1.5 플래시는 이름에서 알 수 있듯이 응답 시간 측면에서 다른 모델보다 우위를 점할 수 있도록 설계되었습니다. 위에서 언급한 웹 스크래핑의 예에서 약 2.5초의 응답 시간 차이가 있으며, 이는 거의 40% 더 빠르므로 자동화 사용 또는 짧은 지연 시간이 필요한 모든 사용 사례에서 Gemini 1.5 플래시가 더 나은 선택이 될 수 있습니다.
Gemini 1.5 Flash의 몇 가지 흥미로운 사용 사례
동영상 요약
Gemini 1.5 Pro의 동영상 이해력은 AI에서 가장 과소평가된 부분입니다.
50대에 스포츠에서 가장 상징적인 순간을 담은 11분짜리 유튜브 동영상(약 17만 5천 토큰)을 ‘본’ 결과, 18개의 순간을 모두 완벽하게 나열할 수 있었습니다(제가 알기로는). 이만한 비디오 AI는 없습니다! pic.twitter.com/LaVGR3ATfU – 디디 (@deedydas), 2024년 4월 5일
비디오를 사용하여 코드 작성
정말 놀랍습니다 🤯
Gemini 1.5에 제가 쇼핑하는 모습을 플래시 동영상으로 녹화해 주었더니 약 5초 만에 셀레늄 코드가 나왔습니다. 많은 것을 바꿀 수 있습니다. pic.twitter.com/Ojm6aueLe7 – 최민 (@minchoi) May 18, 2024
게임플레이 자동화
저는 슈퍼 마리오 64를 안내하는 제미니 1.5 플래시를 사용하여 저만의 옴니 어시스턴트를 만들었습니다.
제미니는 제가 하는 일을 화면에서 볼 수 있고 음성으로 저와 실시간으로 소통할 수 있으며, 1M의 긴 컨텍스트 덕분에 우리가 함께 하는 모든 일을 기억하고 있습니다. 놀랍습니다. pic.twitter.com/doTngufjFL – 피에트로 스키라노 (@skirano), 2024년 5월 21일