구글 대형 모델 드디어 성큼 Gemini 대결 GPT-4

미국 시간으로 12 월 6 일 Google은 Gemini 대형 모델을 공식 발표했습니다.구글의 CEO 순다르 피차이 (Sundar Pichai) 는 구글이 지금까지 가장 강력하고 통용되는 모델이라고 말했다.
ChatGPT가 출시된 지 1년 1주일이 지났습니다.ChatGPT의 발표와 함께 OpenAI는 인공지능 분야에서 가장 눈부신 회사가 되었다. 특히 대형 모델 분야에서는 구글을 포함한 다른 모든 기술 회사들의 추격 목표이기도 하다.
지난 8년간 AI-first를 회사 전략으로 삼아온 구글은 2016년 인간 바둑 챔피언을 꺾은 알파고가 구글의 손에서 나왔다.조금도 과장하지 않고 구글이 일으킨 AI 물결은 전체 AI 업계의 발전을 변화시켰지만, 지금은 대형 모델 분야에서 자신을 증명하는 것이 시급하다.
Gemini 1.0 버전에는 Gemini Ultra, Gemini Pro, Gemini Nano 등 세 가지 다른 크기가 포함된 것으로 알려졌다.이 중 Gemini Nano는 주로 장치에 적용되며 Pixel 8 Pro는 Gemini Nano를 탑재한 최초의 스마트폰이 될 것입니다.Gemini Pro는 다양한 작업에서 확장할 수 있으며, 구글은 Gemini Pro로 자사의 챗봇 Bard와 검색, 광고, 크롬 등을 포함한 더 많은 구글 제품을 업그레이드할 계획이다.
가장 강력한 기능의 Gemini Ultra에 대해 구글은 현재 신뢰와 보안 검사를 진행하고 있으며 미세 조정 및 인간 피드백 기반 강화 학습 (RLHF) 을 통해 모델을 더욱 보완해 내년 초 개발자와 기업 고객에게 출시할 예정이라고 밝혔다.
순다르 피차이는 Gemini의 발표는 인공 지능 발전의 중요한 이정표이자 구글의 새로운 시대의 시작이라고 말했다.
GPT-4를 뛰어넘는다?
구글 딥마인드의 데미스 하사비스 (Demis Hassabis) 최고경영자 (CEO) 에 따르면 Gemini는 구글 팀이 처음부터 구축한 다중모드모델이다. 이는 텍스트, 코드, 오디오, 이미지, 동영상을 포함한 다양한 유형의 정보를 요약하고 빈틈없이 이해하고 처리할 수 있다는 것을 의미한다.
성능 테스트에서 Gemini Ultra는 32 개의 큰 언어 모델 벤치마크 중 30 개가 현재 최우수 성적을 초과했으며 MMLU (대규모 멀티태스킹 언어 이해) 에서는 Gemini Ultra가 90% 로 인간 전문가를 능가하는 최초의 큰 모델이 되었습니다.
데미스 허사비스에 따르면 Gemini Ultra는 이미지 벤치마크 테스트 과정에서 이미지 문자 인식 (OCR) 시스템의 도움 없이 이전의 최첨단 모델을 추월했다.이러한 벤치마크 테스트는 Gemini의 다중 모드 능력을 부각시키고 더 복잡한 추리력을 가진 초기 징후를 보여줍니다.
현재 다중 모드 모델을 생성하는 표준 방법은 주로 다른 모드의 개별 어셈블리를 훈련한 다음 결합하는 것입니다.그러나 이러한 작업의 결과, 이러한 모델은 때때로 이미지 설명과 같은 특정 작업을 수행하는 데 잘 수행되지만 종종 더 복잡한 추론을 처리하기가 어렵습니다.
"우리는 Gemini를 기본 다중 모드로 설계했다. 처음부터 다른 모드에 대해 사전 훈련을 한 다음 추가 다중 모드 데이터를 사용하여 효과를 더 높이기 위해 미세 조정했다."라고 데미스 하사비스는 설명했다."이것은 Gemini가 처음부터 다양한 입력을 원활하게 이해하고 추론할 수 있도록 도와주며, 기존의 다중 모드 모델보다 훨씬 우수하며, 그 능력은 거의 모든 분야에서 최첨단 수준에 도달했다."
예를 들어 추리 측면에서 Gemini 1.0은 복잡한 서면 및 시각 정보를 이해할 수 있으며 정보를 읽고 선별하고 이해함으로써 수십만 개의 문서에서 견해를 추출 할 수 있습니다.
또한 Gemini 1.0은 텍스트, 이미지, 오디오 등을 동시에 식별하고 이해할 수 있도록 훈련되어 있기 때문에 미묘한 정보를 더 잘 이해하고 수학과 물리 등 복잡한 학과의 추리를 하는 등 복잡한 주제와 관련된 질문에 대답할 수 있다.
인코딩 측면에서 Gemini 1.0은 Python, Java, C++ 및 Go와 같은 세계에서 가장 인기있는 프로그래밍 언어의 고품질 코드를 이해하고 해석하고 생성 할 수 있습니다.2년 전 AI 코드 생성 플랫폼인 알파코드를 출시한 구글은 현재 제미니의 도움으로 알파코드 2로 교체되고 성능도 크게 향상돼 이전의 거의 두 배의 문제를 해결할 수 있게 됐다.
지속적인 보안 최적화
순다르 피차이는 현재 수백만 명이 구글 제품에서 생성형 AI를 사용하고 있으며, 1년 전만 해도 할 수 없었던 일을 하고 있으며, 더 복잡한 질문에 답하는 것부터 새로운 도구를 사용하여 협업하고 창조하는 것까지 하고 있다고 밝혔다.이와 함께 개발자들은 구글의 모델과 인프라를 이용해 새로운 생성형 AI 앱을 구축하고 있으며, 전 세계 스타트업과 기업들도 구글의 AI 도구를 활용해 성장을 거듭하고 있다.
그 견해에 의하면 이런 추세는 이미 다소 믿을수 없지만 이는 아직 시작에 불과하다.
"우리는 이 일을 대담하고 책임감 있게 진행하고 있다.이것은 우리의 연구가 야망을 가지고 인류와 사회에 큰 이익을 가져다 줄 수 있는 능력을 추구해야 한다는 것을 의미하며, 동시에 AI가 더욱 강해짐에 따라 발생하는 위험에 대처하기 위해 보장 조치를 수립하고 정부 및 전문가와 협력해야 한다."라고 산다르 피차이는 말했다.
이에 따라 Gemini의 개발 과정에서 Google도 보안 검토 작업을 강화했습니다.데미스 허사비스는 구글의 AI 원칙과 제품 보안 정책에 더해 구글 팀이 게미니의 다중모드 능력에 새로운 보호 조치를 추가하고 있다고 소개했다.
뿐만 아니라 데미스 허사비스는 개발의 모든 단계에서 구글은 잠재적 위험을 고려하고 이를 테스트하고 줄이기 위해 노력할 것이라고 강조했다.
Gemini는 편견과 유해 정보에 대한 평가를 포함하여 지금까지 모든 구글 AI 모델 중 가장 포괄적인 보안 평가를 가지고 있는 것으로 알려졌다.아울러 구글은 내부 평가 방법의 맹점을 식별하기 위해 다양한 외부 전문가 및 팀과 협력해 제미니 모델에 대해 다양한 문제에서 스트레스 테스트를 진행하고 있다.
또 Gemini의 훈련은 구글의 자체 장량 처리 유닛 (TPUs) 인 v4와 v5e를 기반으로 한다는 점도 주목할 만하다.이러한 TPUs에서 Gemini는 Google의 이전 모델보다 더 빠르고 비용이 적게 듭니다.그래서 구글은 새로운 모델 외에도 첨단 AI 모델을 훈련하기 위해 설계된 새로운 TPU 시스템인 클라우드 TPU v5p를 출시할 것이라고 발표했는데, 이는 Gemini 개발에도 사용될 것이다.
업계 관계자는 기자에게 구글이 이번에 발표한 Gemini는 많은 성능에서 GPT-4를 앞질렀지만 OpenAI와 여전히 시간차가 있으며 GPT-4가 출시된 지 반년이 넘었고 차세대 모델도 개발 과정에 있을 것이라고 말했다.
"그래서 구글의 경우 GPT-4와 각종 벤치마킹을 하는 비교는 현 단계의 능력을 보여주는 측면일 뿐, 자체 축적 및 강력한 자원에 의존해 OpenAI와의 시간차를 단축할 수 있을지가 관건"이라고 이 관계자는 지적했다.또 Gemini는 구글이 대형 모델 시대에 구축한 새로운 인프라로서 데이터를 테스트하는 것보다 일상 사용자와 기업 고객을 만족시킬 수 있는지가 Gemini의 능력을 검증하는 진정한 기준이다.
데미스 허사비스는 구글이 이미 검색에서 Gemini를 시험하기 시작했으며 이는 사용자의 검색생성체험을 더욱 빨리 했으며 미국의 영어검색에서 지연이 40% 감소함과 동시에 품질면에서도 제고되였다고 밝혔다.
다음으로 Gemini 1.0의 착지 응용을 가속화하는 과정에서 Google은 더 많은 정보를 처리하기 위해 컨텍스트 창을 추가하고 더 나은 응답을 제공하는 등 미래 버전의 기능을 더욱 확장하고 있습니다.

比特币“大户”惨遭香橼做空！微策略股价日内暴跌31%

文远知行：旗下自动驾驶环卫车与无人扫路机在新加坡投入运营

斗鱼第三季度实现营收10.63亿元

极氪陈奇：高阶智驾引领出行新潮流