AI'스타'선수 정상 대결!기자 실측 최신 구글 Gemini와 GPT-4o

"과학창업판일보" 5월 17일발 소식 (기자 주릉): 일전, OpenAI는 26분간의 온라인생방송으로 GPT-4o가 가져다준 놀라운 상호작용능력을 과시하여 새로운 AI패권쟁탈을"Her 시대"에 진입시켰다.GPT-4o의"o"는"omni"를 대표하며,"전능"이라는 뜻을 가지고 있으며, 이 모델은 빈틈없는 텍스트, 비디오 및 오디오 입력을 실현할 수 있고, 상응하는 모드의 출력을 생성할 수 있으며, 진정한 의미에서 다중 모드 인터렉션을 실현한다.
그 뒤를 이어 연례 Google I/O 개발자 대회가 예정대로 열렸다. Google CEO Sundar Pichai는 자사의 최신 생성식 AI 모델인 Gemini를 둘러싼 일련의 중대한 업데이트를 발표하여 OpenAI에 전면적으로 반격했다. 그중에는 업그레이드 후 Gemini 모델로 구동되는 AI 어시스턴트 프로젝트인 Project Astra, Sora를 표기한 문생 동영상 모델인 Veo 등이 있다.
이번 주 AI 전장은 잠시 일단락됐다. 과학창업판일보 기자는 AI계의'스타'선수인 구글 Gemini 1.5 Pro (100만 tokens), OpenAI 최신 업그레이드된 GPT-4o와 앞서 발표된 GPT-4에 대한 능력 평가를 진행했다.
▍ 텍스트 테스트: Google Gemini 1.5 Pro 정확도 및 속도 GPT-4o 및 GPT-4 완승
OpenAI가 GPT-4를 발표한 지 1년여가 지났다. 소개에 따르면 이번에 새로운 기함모델인 GPT-4o를 출시한 추리력은 뚜렷이 제고되였고 속도도 빨라졌으며 가격도 내려갔다.
Google Gemini 시리즈는 상징적인 초대형 컨텍스트 창으로 유명하며, 이전에 Ultra, Pro, Nano 등 세 가지 규격을 가지고 있으며, 각각 다른 규모와 수요의 응용 장면에 적합하다.이번 발표회는 반복된 Gemini 1.5 Pro의 컨텍스트 길이가 기존 100만 tokens (문 단위) 에서 200만 tokens로 향상됐다고 발표했다.이 개선은 모델의 데이터 처리 능력을 크게 향상시켜 더욱 복잡하고 방대한 데이터 세트를 처리하는 데 더욱 여유를 갖게 한다.
두 회사 모두 자사의 대형 모델의 세대교체에 대해 자신감 있는 자세를 보이고 있지만 실제 검증이 필요한 상황이다.
첫 번째 문제는'사실 응답 문제'로, 구글 Gemini 1.5 Pro 모델만이 정답을 맞혔으며,'나사못이 식품이 아니다'라는 사실을 판별할 수 있었다.
Gemini 1.5 Pro 응답 결과
GPT-4와 GPT-4o는"마라 나사를 어떻게 만드는가"에 대한 대답은 매우 상세하고 전면적이며 필요한 재료, 제작 절차 및 팁을 포함하지만,"나사는 식용품이 아니다"라는 선행 사실을 간과한다.
GPT-4, GPT-4o 응답 결과
두 번째 문제는'논리적 계산 문제'로 GPT-4와 GPT-4o가 모두 틀렸다. 구글 모델은 정답을 제시하고 구체적인 답안 작성 시간을 표시했다. 10초도 안 돼 답안과 해석을 내놓아'빠르고 좋다'고 할 수 있다.
Gemini 1.5 Pro 응답 결과
서로 다른 모델이 논리적 문제를 처리할 때 취하는 사고 전략은 차이가 있다.Gemini 1.5 Pro가 해답할 때 먼저 답을 주고 그 배후의 법칙을 상세하게 해석하는 방식과 달리 GPT-4와 GPT-4o는 먼저 문제를 깊이있게 해체하는 경향이 있으며 직접 답안을 보여주는것이 아니다.그러나 이런 문제에 대한 세밀한 분석과 해체 과정도 후자가 대답하는 데 걸리는 시간이 상대적으로 길다.
GPT-4, GPT-4o 응답 결과
세 번째 문제는'생체 문제'로 GPT-4가 틀렸고, GPT-4o와 구글 Gemini 1.5 Pro가 각각 14.83초와 11.2초로 각각 한 수 위였다.
Gemini 1.5 Pro 응답 결과
네 번째 문제는"윤리 도덕 문제"이며, 세 가지 큰 모델의 대답이 모두 정확하며, 모두 고전적인 윤리 곤경인"전차 난제"라는 것을 식별할 수 있다.GPT-4와 Gemini 1.5 Pro는 윤리적 딜레마의 복잡성을 강조하며 직접적인 선택을 하지 않았고, GPT-4o는'사상자 최소화'원칙에 따라 분석하고 선택을 했다.
3대 모델 복원 결과
"과창판일보" 기자가 텍스트 테스트 결과를 총결한 결과, 구글의 100만 레벨 매개변수의 Gemini 1.5 Pro 모델은 네 번의 모든 정확한 표현으로 실력 레버리지, GPT-4o가 두 번 맞혔지만, GPT-4 모델의 표현은 만족스럽지 못하고 한 번만 맞혔다.
현재 200만급 매개변수의 Gemini 1.5 Pro 모델이 아직 개방되지 않았기 때문에"과학창업판일보"기자는 내측을 신청하여 통과를 기다린 후 다시 추가 테스트 공유를 했다.
▍ 다중 모드 테스트: 디테일 및 분석 능력에서 한 수 위의 GPT-4o
GPT-4o는 OpenAI가 널리 인기 있는 대형 다중모드 모델 GPT-4에 대한 세 번째 중대한 반복으로, 시각 기능을 통해 GPT-4의 능력을 확장하였으며, 새로 출시된 모델은 통합적이고 빈틈없는 방식으로 사용자와 대화, 시각 인식 및 상호 작용을 할 수 있다.Gemini 1.5 Pro도 멀티모드 기능을 갖추고 있어 처리, 채팅, 사진 분석과 동영상 자막, 긴 텍스트와 표에서 데이터를 추출하는 데 적합하다.
기자는"공원 사진"으로 세 개의 큰 모형을 물었다
테스트에서 기자는"공원 사진"으로 세 가지 큰 모델에 대해 물었다.사진 테스트 피드백에 따르면 세 가지 큰 모델 모두 공원 사진의 내용을 정확하게 묘사했지만 중점은 약간 다르다.GPT-4o는 정보 무결성을 이기고 선박 유형, 호수 상태 등 각종 세부 사항을 상세히 열거했지만 다소 지루했다.Gemini 1.5 Pro는 언어가 간결하고 유창하며'여유롭게 배를 띄운다','경치가 쾌적하다'등의 단어로 화면의 미감을 묘사하지만 디테일은 GPT-4o보다 풍부하지 않다.GPT-4는 간결하지만 디테일이 풍부하지 않다.
간단히 말해서, 정보의 전면성을 중시한다면 GPT-4o가 가장 강하다;언어 표현에 더 중점을 두면 Gemini 1.5 Pro가 약간 더 좋습니다.
현재 GPT-4는 오디오와 비디오 콘텐츠의 해석 능력을 갖추지 못했기 때문에 관련 평가를 하지 않는다.OpenAI 공동창업자 Sam Altman은 새로운 음성모델 GPT-4o는 아직 발송되지 않았으며 이미 발송된것은 문자판 GPT-4o에 불과하다고 밝혔다.음성판이 발송되면 기자는 가장 빠른 시간내에 평가를 가져올것이다.
비디오 테스트 피드백에 따르면 GPT-4o는 비디오 콘텐츠를 구문 분석할 때 강력한 다중 모드 처리 능력을 보여줍니다.비디오 프레임을 추출하고 분석하여 그래픽 인터페이스를 통해 사용자에게 시각적으로 보여 줍니다.분석 과정에서 모델은 영상 속의 네 발 로봇을 정확하게 식별하고 그 외관, 처한 환경과 진행된 활동에 대해 상세하게 묘사했다.
GPT-4o 비디오 테스트 응답
이에 비해 Gemini 1.5 Pro의 답장은 간략하고 단조로워 기자의 두 번째 추궁으로 더 많은 세부 사항을 보강했다.
총체적으로 볼 때 목표가 가장 전면적이고 깊이있는 다중모태내용리해를 획득하는것이라면 GPT-4o는 현재의 가장 좋은 선택이고 Gemini 1.5 Pro는 서술의 질과 효률을 중시하는 다중모태응용장면에 더욱 적합하다.그러나 GPT-4o와 Gemini 1.5 Pro 모두 비디오의 소리에 대한 분석에 대해 언급하지 않았는데, 이는 두 개의 다중 모드 대형 모델 해석 중 하나의 공통된 결핍이다.
전 화웨이'천재 소년'은 국내 최초의 종단간 다중모드 대형 모델이 연말에 도래할 것이라고 예측했다
AI 경기는 과열 단계에 이르러 이미 단순한 기술 경쟁과 작별하고 응용과 사용자 체험의 경쟁으로 전환되었다.
검색 엔진과 사무 분야에서도 구글은 AI를 더 도입할 예정이다.구글의 검색엔진 결과를 정리할 수 있는'AI 개관'(AI Overviews) 기능을 사용할 수 있게 된 것이다.바이두의 창시자이자 회장 겸 최고경영자인 리옌훙은 어젯밤 재보 전화회의에서 현재 바이두 검색에서 11% 의 검색 결과가 AI에 의해 생성되고 있다고 밝혔다.그는 "바이두 검색의 AI 재구성 작업은 여전히 초기 단계"라며 "전체적으로 검색이 AI 시대의 킬러 앱이 될 가능성이 가장 크다"고 지적했다.
OpenAI와 구글은 모두 약속이나 한 듯이 자연적으로 상호작용할수 있는 지능보조를 주시하고있다. 이런 지능보조는 종단간 통일된 다모태대모형으로서 AI 응용의 혁명적인 변화를 추동하게 된다.전 화웨이'천재 소년',
전 화웨이'천재 소년'이자 로제닉 알 (Logenic Al) 의 공동 창업자인 리보제는 국내 최초의 다중모드 종단간 다중모드는 올해 말에 많이 모자랄 수 있을 가능성이 높다고 말했다.
리보제는 AI 에이전트의 최근 발전 속도가 둔화되는 문제에 대해"AI 스마트 어시스턴트의 발전 전망은 밝지만 비용과 사용자의 유료 의지가 현재 빠른 발전을 제한하는 주요 요인이다.GPT-4o는 GPT-4보다 4배 빠르고 비용을 두 배로 낮췄지만 일반 소비자에게는 여전히 비쌀 수 있다"고 말했다.
리박걸은 다음과 같이 말했다. 장기적으로 볼 때 실용성이 강한 지능조수는 현실문제를 해결하는 능력으로 하여 더욱 높은 가치를 갖고있다.단기적으로는 신뢰성에 대한 요구가 낮고 개발과 배치가 상대적으로 쉽기 때문에 정서적 동반과 오락 기능의 스마트 보조가 더욱 상업화되기 쉽다.

比特币“大户”惨遭香橼做空！微策略股价日内暴跌31%

文远知行：旗下自动驾驶环卫车与无人扫路机在新加坡投入运营

斗鱼第三季度实现营收10.63亿元

极氪陈奇：高阶智驾引领出行新潮流