미국 서시간으로 5월 13일 (월), OpenAI 최고기술책임자 Mira Murati는 많은 기대를 받고있는 생방송시연에서 GPT-4o라는 새로운 기함AI모형을 출시한다고 선포했다. 이는 이미 출시된 지 1년이 넘은 GPT-4모형의 갱신버전이다.이와 함께 OpenAI는 데스크탑 버전의 ChatGPT와 새로운 사용자 인터페이스(UI)를 선보였다.
GPT-4o 모델은 인터넷의 많은 데이터를 기반으로 훈련되며 텍스트와 오디오를 더 잘 처리하고 50 개 언어를 지원합니다.특히 GPT-4o는 빠르면 232ms 이내에 오디오 입력에 응답할 수 있어 인간의 응답 수준에 거의 도달했다.
Murati에 따르면 새로운 모델은 유료 사용자뿐만 아니라 모든 사람을 대상으로"우리의 무료 사용자에게 GPT-4 수준의 지능형 수준을 제공합니다."그러나 GPT-4o의 응용 프로그램 인터페이스에는 아직 모든 고객에게 음성 기능이 제공되지 않았습니다.남용 위험을 감안하여 OpenAI는 앞으로 몇 주 내에 GPT-4o의 새로운 오디오 기능에 대한 지원을"신뢰할 수있는 작은 파트너"에게 먼저 출시 할 계획입니다.
ChatGPT-4o가 발표된 후 네티즌들의 평가도 엇갈렸다.엔비디아 과학자 짐 팬은 "기술적으로 전반적으로 데이터와 시스템 최적화 문제"라고 평했다. 한 네티즌도 지금까지 OpenAI가 그렇게 선구적이지 않다고 느꼈지만, 일부 네티즌은 OpenAI가 애플과의 격차를 더 벌렸다며 이제 애플의 Siri가'진땀'을 흘릴 차례라고 주장했다.
GPT-4o는 얼마나"폭발"합니까?핵심 능력은 세 가지가 있다.
GPT-4o의'o'는'omni'를 나타내며,'전능'을 의미한다.OpenAI 홈페이지는 GPT-4o가 텍스트, 오디오, 이미지의 임의의 조합을 입력 내용으로 받아들이고 텍스트, 오디오, 이미지의 임의의 조합 출력 내용을 생성하기 때문에 더 자연스러운 휴먼 컴퓨터 인터렉션으로 한 걸음 나아갔다고 소개했다.
그렇다면 GPT-4o는 도대체 얼마나 강하고 어떤 핵심 능력이 있을까?
OpenAI 홈페이지 캡처
능력 1:"실시간"상호작용, 감정 표현, 시각 기능 강화
OpenAI는 GPT-4o가 AI 챗봇 ChatGPT의 사용 경험을 크게 향상시켰다고 밝혔다.ChatGPT는 오랫동안 음성 모드를 지원하여 ChatGPT의 텍스트를 음성으로 변환할 수 있지만, GPT-4o는 이를 기반으로 최적화되어 사용자가 어시스턴트와 상호 작용하는 것처럼 자연스럽게 ChatGPT를 사용할 수 있도록 합니다.
예를 들어, 이제 사용자는 ChatGPT가 질문에 대답할 때 중단할 수 있습니다.그리고 새로운 모델은"실시간"대응을 제공할수 있으며 심지어 사용자의 목소리속의 감정을 포착할수 있으며 부동한 감정풍격으로 음성을 생성할수 있어 마치 실물과 같다.또한 GPT-4o는 ChatGPT의 시각적 기능을 향상시킵니다.사진이나 스크린샷을 통해 ChatGPT는 이제"이 코드는 무엇에 사용되는가"에서"이 사람은 어떤 브랜드의 셔츠를 입는가"에 이르기까지 관련 질문에 신속하게 대답할수 있다.
미국 과학기술매체 쿼츠는 OpenAI가 새로 발표한 챗GPT-4o의 기술이 인상적이라고 보도했다.OpenAI의 시연은 로봇이 현재 인간과 실시간 대화를 할 수 있으며 실제 사람과 거의 다르지 않다는 것을 보여준다.최종 버전이 OpenAI 공식 시연과 같다면 OpenAI는 AI가 우리 세상을 얼마나 변화시킬 것인지를 어느 정도 검증한 것으로 보인다.
능력2: 다언어표현이 뛰여나 응답속도가 거의 실물과 다름없다
GPT-4o의 다국어 기능이 향상되어 50개의 다른 언어에서 더 잘 표현되었다.OpenAI의 API에서 GPT-4o는 GPT-4 (특히 GPT-4 터보) 의 두 배, 가격은 GPT-4 터보의 절반이며 더 높은 속도 제한을 가지고 있다.
GPT-4o는 빠르면 232ms의 시간 내에 오디오 입력에 응답할 수 있으며, 평균 응답 시간은 320ms이며, 이는 대화에서 인간의 응답 시간과 비슷하다고 OpenAI 홈페이지는 설명했다.영어 텍스트와 코드의 성능은 GPT-4 Turbo의 성능과 일치하며 비영어 텍스트의 성능이 크게 향상되었습니다.
사용자는 간단한"이봐, ChatGPT"음성 프롬프트를 보내면 에이전트의 회화 응답을 얻을 수 있습니다.그런 다음 사용자는 구어로 쿼리를 제출하고 필요한 경우 사진, 휴대 전화 카메라의 실시간 화면 또는 에이전트가"보이는"다른 내용을 포함 할 수있는 텍스트, 오디오 또는 시각적 효과를 첨부 할 수 있습니다.
능력 3: 추리 및 오디오 번역 방면에서 새로운 벤치마킹 수립
OpenAI 연구자 William Fedus에 따르면 GPT-4o는 실제로 지난주 LMSYS 모델 경기장에서 AI 서클 전체의 광적인 시용을 불러일으킨 GPT-2 모델의 또 다른 버전이며 GPT-4o의 벤치마킹 평점 대비도를 첨부해 GPT-4 터보에 비해 100단위 이상 향상됐다.
추론 능력은 GPT-4o가 MMLU, GPQA, MATH, HumanEval 등 테스트 기준에서 모두 GPT-4 터보, Claude 3 Opusn, Gemini Pro 1.5 등 최전방 모델을 제치고 최고점을 받았다.
OpenAI
오디오 ASR (스마트 음성 인식) 성능은 GPT-4o가 Whisper-v3에 비해 모든 언어에서 음성 인식 성능이 크게 향상되었으며, 특히 자원이 적은 언어는 더욱 그렇다.
OpenAI
오디오 번역의 경우 GPT-4o도 MLS 벤치마킹에서 Whisper-v3 및 Meta, Google의 음성 모델보다 우수한 새로운 벤치마킹을 수립했습니다.
OpenAI
평가는 엇갈렸고, 어떤 네티즌은 스트레스가 시리에게 돌아갔다고 생각했다
OpenAI의 월요일 메가톤급 생방송 시연에 모습을 드러내지는 않았지만 OpenAI의 CEO 알트만은 이번 시연에 대해 중요한 요약을 했다.알트먼에 따르면 OpenAI는 ChatGPT에서 세계 최고의 모델을 무료로 제공했다. 새로운 음성과 동영상 모델은 그가 사용했던 최고의 컴퓨팅 인터렉션 인터페이스로 영화 속 인공지능처럼 인간과 비슷한 응답 속도와 표현 능력에 도달하는 느낌이다.
현재 GPT-4o의 텍스트 및 이미지 기능은 ChatGPT에서 무료로 제공되기 시작했으며 Plus 사용자는 5배의 호출 한도를 누릴 수 있습니다.앞으로 몇 주 안에 OpenAI는 ChatGPT Plus에서 GPT-4o를 탑재한 Voice Mode의 새로운 버전을 출시할 예정이다.
반면 소셜미디어 플랫폼 X (옛 트위터) 에서는 ChatGPT-4o에 대한 누리꾼들의 평가가 엇갈리고 있다.
엔비디아 과학자 짐 팬은"기술적으로 OpenAI는 오디오를 오디오에 직접 매핑하는 것을 1단계 모드로 삼고 동영상을 실시간으로 transformer로 전송할 수 있는 방법을 찾았다.이러한 것들은 token화와 아키텍처에 대한 새로운 연구가 필요하지만 전체적으로 데이터 및 시스템 최적화 문제 (대부분의 일이 그렇습니다)"
X
OpenAI가 내놓은 새로운 모델과 UI 업데이트에 대해 한 네티즌은 지금까지 OpenAI가 그렇게 창의적이지 않다고 느꼈다고 말했다.
X
GPT-4o는 음성을 텍스트로 변환할 수 있을 뿐만 아니라 호흡과 감정과 같은 오디오의 다른 특징을 이해하고 표시할 수 있지만 이것이 모델 응답에서 어떻게 표현되는지는 확실하지 않다고 지적하는 네티즌도 있다.
X
하지만 대부분의 네티즌들은 긍정적인 반응을 보였다.
알트먼이 X에 남긴'her'한 구절에 대해 챗GPT가 고전 영화'그녀'(Her)에서 인간처럼'피와 살'을 가진 AI를 구현했음을 암시하는 듯 한 네티즌은 "드디어 해냈네"라며 영화'그녀'스틸컷 속 AI를'OpenAI'로 바꾸는 드립샷을 곁들였다.
X
X
또 다른 네티즌은"미친 짓이다.OpenAI는 방금 ChatGPT-4o를 출시했는데 이는 인공지능조수의 경쟁을 철저히 개변시킬것이다."이 네티즌은 또 10개의 ChatGPT-4o"미친"사례를 렬거했다. 례를 들면 실시간시각보조 등이다.
X
또 한 네티즌은 칸학원의 칸과 그의 아들이 함께 GPT-4o를 사용하여 아이가 칸학원에서 수학문제를 푸도록 지도한 예시로"학생들이 그들의 아이패드스크린을 새로운 ChatGPT-4+ GPT-4o와 공유하고 AI가 그들과 이야기를 나누며"실시간으로"학습할수 있도록 도와주었다.세계 모든 학생들이 이렇게 공부할 수 있다면 미래가 이렇게 밝을 것이라고 상상해 보세요."
X
일부 네티즌들은 OpenAI가 애플과의 격차를 더욱 벌렸다고 생각하며 땀을 뻘뻘 흘리는 움짤을 보내며 현재 애플의 음성 비서 시리가 지금 이 모습일 것이라고 말했다.
X
이에 대해 쿼츠는 GPT-4o의 감정적 속성이 AI 챗봇을 애플의 시리보다 더 개성화시켰다고 보도했다.시리는 로봇과 대화하는 듯한 느낌을 주지만 OpenAI의 시연은 GPT-4o가 사용자의 감정을 인식하고 당신의 감정과 일치하는'인공 감정 지능'을 가지고 있다는 것을 분명히 보여준다.이는 GPT-4o를 진정한 동반자처럼 느끼게 해 사용자의 스마트폰 운영체제에 인간성을 더했다.
실제로 애플은 기술 위협에 대응하기 위해 OpenAI와 협력 상담도 진행 중이다.Wedbush 애널리스트 Dan Ives는 보고서에서 애플이 6월 10일 WWDC 총회에서 OpenAI와의 파트너십을 공식 선언하고 애플 LLM 기반 AI 챗봇을 출시할 것으로 전망했다.