首页 신문 正文

대형 모델 평가 차트 발표: GPT-4 1위, 지보, 알리, 바이두 제품 5위권 진입

Mohammad61417
1481 0 0

어제 상하이 인공지능 실험실은 2023년도 대형 모델 평가 차트를 발표했다.대형 모델 오픈 소스 오픈 평가 시스템"사남"(OpenCompass2.0) 의 국내외 주류 대형 모델에 대한 전면적인 평가 진단을 거쳐 중영 이중 언어 평가 10위권 발표: OpenAI가 개발한 GPT-4 터보가 1위, 2~5위는 지보청언 GLM-4, 알리바바 Qwen-Max, 바이두 문심일언 4.0, 알리바바 Qwen-72B-Chat 순이다.
작년 7월에 발표된 이래,"스난"(OpenCompass) 은 학계와 산업계에서 많은 관심을 끌었고, 곧 세계 최고의 대형 모델 능력 평가 체계가 되었다.메타사의 Llama 대형 모델 연구 개발 팀은 이를 공식 추천 능력 평가 도구 중 하나로 삼았는데, 이는 중국 기관이 개발한 유일한 평가 도구이기도 하다.알리바바, 텐센트, 바이두 등 회사들도 그 큰 모형의 연구개발과 응용에"사남"을 사용하였다.
OpenCompass2.0 중영 이중 언어 객관 평가 10위권 (백분율 적용, 상용 폐원 모델은 API 형식 테스트를 통해 오픈 소스 모델은 모델 가중치에서 직접 테스트)

"대형 모델 평가의 가장 큰 의의는 차트 순위에 있는 것이 아니라 평가 결과를 통해 개선 작업을 지도하는 것이다."상하이 인공지능 실험실 리더 과학자 린다화 교수는 이렇게 말했다."일부 대형 모델 연구개발 기관은'문제해 전술'을 통해 평가 성적을 높여 성적이 대형 모델의 실제 능력을 제대로 반영하지 못하게 한다.모델을 이런'고득점 저에너지'상태에 처하게 하는 것은 결국 연구개발 기관 자체를 해치는 것"이라고 말했다.
대형 모델의 실제 능력을 더욱 진실하고 전면적으로 반영하기 위해,"사남"평가 체계는 최근 OpenCompass2.0으로 업그레이드되었으며, 대형 모델 평가를 지탱하는"철의 삼각형"인 권위 있는 평가 차트 CompassRank, 고품질 평가 기준 커뮤니티 CompassHub, 평가 도구 체인 시스템 CompassKit을 포함한다.이 평가 체계는 언어와 이해, 상식과 논리 추리, 수학 계산과 응용, 다중 프로그래밍 언어 코드 능력, 지능체, 창작과 대화 등 여러 방면을 포괄하는 고품질의 중영문 이중 언어 평가 기준을 구축했다.또한 여러 가지 능력 평가 방법을 혁신하여 모델의 실제 능력을 전면적으로 진단할 수 있다.
대형 모델 평가를 지탱하는'철의 삼각형'

총체적으로"사남"평측결과가 보여준데 따르면 복잡한 추리 관련 능력은 대형모형이 보편적으로 직면한 난제이며 국내 대형모형은 GPT-4에 비해 아직도 격차가 존재한다.중국어 장면에서 국내 최신 대형 모델은 이미 독특한 우세를 보여 일부 차원에서 GPT-4 터보 수준에 근접하고 있다;오픈 소스 모델은 매우 빠르게 진보하여 비교적 작은 규모로 비교적 높은 성능 수준에 도달하여 비교적 큰 발전 잠재력을 나타낸다.
평가 결과 대언어 모델의 전체 능력은 아직 크게 향상될 여지가 있는 것으로 나타났다.백분제의 객관적인 평가기준에서 GPT-4 터보도 61.8점이라는 합격수준에 그쳤는데 이는 복잡한 추리가 여전히 큰 모형이 직면한 중요한 난제이므로 진일보한 기술혁신으로 공략해야 한다는것을 말해준다.
종합성평가에서 지보청언 GLM-4, 알리바바 Qwen-Max, 바이두 문심일언 4.0도 좋은 성적을 거두었는데 이는 이런 모델들이 비교적 균형적이고 전면적인 성능을 갖고있음을 반영한다.이들은 언어와 지식 등 기초 능력 차원에서 GPT-4 터보와 어깨를 나란히 할 수 있다.그러나 복잡한 추리, 복잡한 문제를 안정적으로 해결하는 등 국내 대형 모델은 GPT-4 터보 등 국제 최고 대형 모델과 비교할 때 아직 차이가 있다.
OpenCompass 연간 차트 (객관적 평가, 백분율)

일부 오픈 소스 모델에 대한 평가에 따르면 API (응용 프로그램 프로그래밍 인터페이스) 모델에 비해 객관적 성능과 주관적 성능에서 차이가 있습니다.이는 개원지역사회가 객관적성능을 제고하고 능력기초를 튼튼히 다져야 할뿐만아니라 더우기는 인류가 선호하는 정렬에 공을 들여야 한다는것을 말해준다.평가기준을 합리적이고 과학적으로 사용하고 모형능력에 대해 세밀한 대비와 분석을 진행하는것은 연구개발기구가 모형능력을 끊임없이 제고하는 두가지 방법문이다.
중국어와 영어 이중 언어의 객관적인 평가보다 중국어 주관적인 평가의 국내 대형 모델이 더 잘 표현된다.적지 않은 국내 기업들이 최근 발표한 모델은 여러 능력 차원에서 GPT-4 터보와의 격차를 크게 줄였다.알리바바 Qwen-Max, 지보 청언 GLM-4, 바이두 문심 4.0은 모두 우수한 성적을 거두었다.중국어 언어 이해, 중국어 지식과 중국어 창작에서 일부 국내 비즈니스 모델은 이미 매우 강한 국제 경쟁력을 가지고 있으며, 심지어 일부 차원에서 GPT-4 터보에 대한 초월을 실현하였다.
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

  •   每经AI快讯,据亿航智能官微消息,公司EH216-S无人驾驶电动垂直起降航空器(eVTOL)获得巴西国家民航局颁发的试验飞行许可证书,并计划在巴西进行测试和试飞。关于EH216-S无人驾驶eVTOL在巴西的认证,中国民航局 ...
    潇湘才子
    昨天 08:41
    支持
    反对
    回复
    收藏
  •   今年7月,美国三大海外“债主”所持美国国债齐刷刷缩水,其中日本美债持仓已降至去年10月以来最低。   根据美国财政部当地时间9月18日公布的国际资本流动报告(TIC),2024年7月,美国前三大海外“债主”日本 ...
    520hacker
    3 天前
    支持
    反对
    回复
    收藏
  •   上证报中国证券网讯(记者俞立严)9月19日,蔚来全新品牌乐道的首款车型——乐道L60正式上市。新车定位家庭智能电动SUV,在采用BaaS电池租用服务后,L60的售价可低至14.99万元,电池租用月费最低为599元。乐道L6 ...
    anhao007
    前天 11:03
    支持
    反对
    回复
    收藏
  •   每经记者袁园   日前,国务院印发的《关于加强监管防范风险推动保险业高质量发展的若干意见》提出,以新能源汽车商业保险为重点,深化车险综合改革。   “车险综改”从2015年就已经开始逐步推进了,经过 ...
    moshulong
    前天 21:50
    支持
    反对
    回复
    收藏
Mohammad61417 新手上路
  • 粉丝

    0

  • 关注

    0

  • 主题

    2