GPT-4 터보가 구글이 방금 발표한 Gemini 1.5 Pro는 얼마나 강한가?

이번 주까지 지구에서 가장 강력한 AI 모델은 어디냐는 질문에 절대다수가 무의식적으로 오픈AI가 지난해 11월 발표한 GPT-4 터보를 가리켰다.그러나 몇 달이 지나면서 이 문제의 답안은 조용히 바뀌었다.
목요일 (현지 시간) 구글은 갑자기"차세대 AI 모델"인 Gemini 1.5를 발표했다.업데이트가 반복되는 속도에 비해 (주: 구글은 지난해 12월에야 Gemini 1.0을 발표했다.) 차세대 모델이 보여준 생산력 폭증은 업계의 강한 관심을 끌었다.
(출처: 구글)
핵심 폭발점: 1 백만 tokens를 한 번에 처리
새 버전의 가장 큰 하이라이트인 Gemini 1.5 버전에서 처음으로 등장한 다중 모드 범용 모델인 Gemini 1.5 Pro는 안정적인 처리 컨텍스트의 상한선을 100만 tokens로 확대했다.여기서 강조해야 할 것은 비록 문자 표현은"컨텍스트"이지만, AI 모델은 이미 다중 모드 시대에 진입했으며, 새로 나온 최전방 대형 모델은 기본적으로 모두 문자, 코드, 그리고 사진, 음성, 동영상 등 리치 미디어 처리를 지원한다는 것이다.
수평적 대비로 두 달 전 출시된 Gemini 1.0 Pro의 문맥 이해는 3만2천 tokens로 제한됐고, 오랜 라이벌인 OpenAI의 GPT-4 터보도 12만8천 tokens만 지원한다.
(출처: 구글)
Token이라는 개념은 약간 우회적일 수 있다.다른 방식으로 해석하면 Gemini 1.5 Pro에 70만 개 이상의 단어를 한꺼번에 던질 수 있는 텍스트, 3만 줄 코드, 11시간 오디오, 1시간 분량의 동영상을 주고 일을 지휘하는 것이다.큰 모델의 경우, 컨텍스트 창은 응용 시나리오에 대한 가장 주요한 제한입니다. 50만 자의 파일을"읽기"할 수 없다면 당연히 처리할 수 없습니다.
대량의 자료를 한꺼번에 처리할 수 있는 것은 구글의 모델이'다중 전문가 모델'(MoE) 의 알고리즘을 채택했기 때문인데, 이는 수요에 응답할 때 전체 모델의 일부만 달린다는 것을 의미하며, 이렇게 하면 응답 속도가 더 빠르고 구글이 처리하는 것도 더 편리하다.
피차이 구글 CEO도 구글 연구진이 1000만 토큰스의 컨텍스트 창을 성공적으로 테스트했다고 밝혔다.이는 미래의 AI 모델이'왕좌의 게임'전본 (현재 출간된 5권의 전체 책 전문 수는 173만 단어에 달한다) 을 한꺼번에 처리할 수 있다는 것을 의미한다.
특히 현재 구글이 개발자에게 개방한 테스트 버전 중 제미니 1.5 프로의 토큰 제한은 12만8천개에 불과하다.그러나 구글 딥마인드의 데미스 하사비스 CEO는 앞으로 100만 토큰스의 버전을 잠금 해제할 수 있는 새로운 유료 등급을 내놓을 것이라고 직설적으로 말했다.이에 비해 현재 구글 Gemini 1.0 pro 모델을 사용하는 구독 서비스는 월 19.99달러를 받고 있다.
(Gemini 1.5 Pro는 1.0 pro보다 훨씬 강력하며 1.0 ultra와 비교할 수도 있습니다.)
실제 사례를 좀 주시겠어요?
목요일에 방영된 시연 동영상에서 구글의 연구진은 402페이지의 아폴로 달 착륙 계획 실황 음성 전사 문서를 올리고'부츠 착지'사진을 그려 AI가 파일에서 이 순간의 정보를 찾도록 했다.그 후 큰 모형은 우주 비행사가 달에 발을 디딜 때의 대화를 정확하게 찾아내고 문서의 위치를 정확하게 표시했다.
또 연구진은 AI에게'옷 주머니에서 종이 조각을 꺼내는 순간을 찾고 종이 조각의 내용을 상세히 묘사하라'는 44분짜리 영화를 올렸는데, 의심할 여지 없이 AI가 질문자가 원하는 내용을 정확하게 출력했다.
아울러 연구진은 손으로 그린'사람이 수도꼭지에 물렸다'는 그림을 올렸고, AI도 영화에서 비슷한 장면을 무사히 찾아냈다.
더 많은 전문 시나리오 잠금 해제
기술 문서에서 구글도 AI에게 Kalamang어 (전 세계 약 수백 명만이 능숙하다) 의 문법책을 내준 뒤 여러 모델에 대해 영어에서 Kalamang어, 그리고 Kalamang어에서 영어로의 번역 테스트를 하는 흥미로운 용례를 제시했다.테스트는 0-6점으로 평가되며 이 중 6점은 완벽한 번역이다.
그 결과 Gemini 1.5 Pro는 Kalamang어를 영어로 번역하는 테스트에서 현재 가장 잘 표현되는 모델이었고, 영어를 Kalamang어로 번역하는 테스트에서는 5.52점을 받아 실제 언어 학습자의 5.6점에 비해 한 발짝 떨어진 것으로 나타났다.AI가 문법책 한 권을 입력하는 데 몇 분밖에 걸리지 않았다는 것을 잊지 말아야 한다.
이와 함께 GPT-4 터보와 클라우드 2.1 모두 텍스트 창의 제한이 있어'반본어법서'만 볼 수 있기 때문에 출력된 결과는 대체로 적용할 수 없는 범위에 있다.
피차이 구글 CEO는 기업 애플리케이션에 더 큰 컨텍스트 창구가 큰 도움이 된다고 말했다.상장 회사는 대량의 재무 데이터를 한 번에 로드할 수 있고, 영화 제작자는 영화 전체를 업로드할 수 있으며, 영화 평론가에게 무슨 말을 할 수 있는지 물어볼 수 있다.
더 광범위한'참외를 먹는 군중'에게 구글의 이번 손놀림은 OpenAI에 경종을 울릴 수밖에 없다. GPT-4 터보가 출시된 지 4개월이 지났는데 언제 차세대 대형 모델을 내놓을까.

比特币“大户”惨遭香橼做空！微策略股价日内暴跌31%

文远知行：旗下自动驾驶环卫车与无人扫路机在新加坡投入运营

斗鱼第三季度实现营收10.63亿元

极氪陈奇：高阶智驾引领出行新潮流