首页 신문 正文

대형 모델 평가 차트 발표: GPT-4 1위, 지보, 알리, 바이두 제품 5위권 진입

Mohammad61417
1494 0 0

어제 상하이 인공지능 실험실은 2023년도 대형 모델 평가 차트를 발표했다.대형 모델 오픈 소스 오픈 평가 시스템"사남"(OpenCompass2.0) 의 국내외 주류 대형 모델에 대한 전면적인 평가 진단을 거쳐 중영 이중 언어 평가 10위권 발표: OpenAI가 개발한 GPT-4 터보가 1위, 2~5위는 지보청언 GLM-4, 알리바바 Qwen-Max, 바이두 문심일언 4.0, 알리바바 Qwen-72B-Chat 순이다.
작년 7월에 발표된 이래,"스난"(OpenCompass) 은 학계와 산업계에서 많은 관심을 끌었고, 곧 세계 최고의 대형 모델 능력 평가 체계가 되었다.메타사의 Llama 대형 모델 연구 개발 팀은 이를 공식 추천 능력 평가 도구 중 하나로 삼았는데, 이는 중국 기관이 개발한 유일한 평가 도구이기도 하다.알리바바, 텐센트, 바이두 등 회사들도 그 큰 모형의 연구개발과 응용에"사남"을 사용하였다.
OpenCompass2.0 중영 이중 언어 객관 평가 10위권 (백분율 적용, 상용 폐원 모델은 API 형식 테스트를 통해 오픈 소스 모델은 모델 가중치에서 직접 테스트)

"대형 모델 평가의 가장 큰 의의는 차트 순위에 있는 것이 아니라 평가 결과를 통해 개선 작업을 지도하는 것이다."상하이 인공지능 실험실 리더 과학자 린다화 교수는 이렇게 말했다."일부 대형 모델 연구개발 기관은'문제해 전술'을 통해 평가 성적을 높여 성적이 대형 모델의 실제 능력을 제대로 반영하지 못하게 한다.모델을 이런'고득점 저에너지'상태에 처하게 하는 것은 결국 연구개발 기관 자체를 해치는 것"이라고 말했다.
대형 모델의 실제 능력을 더욱 진실하고 전면적으로 반영하기 위해,"사남"평가 체계는 최근 OpenCompass2.0으로 업그레이드되었으며, 대형 모델 평가를 지탱하는"철의 삼각형"인 권위 있는 평가 차트 CompassRank, 고품질 평가 기준 커뮤니티 CompassHub, 평가 도구 체인 시스템 CompassKit을 포함한다.이 평가 체계는 언어와 이해, 상식과 논리 추리, 수학 계산과 응용, 다중 프로그래밍 언어 코드 능력, 지능체, 창작과 대화 등 여러 방면을 포괄하는 고품질의 중영문 이중 언어 평가 기준을 구축했다.또한 여러 가지 능력 평가 방법을 혁신하여 모델의 실제 능력을 전면적으로 진단할 수 있다.
대형 모델 평가를 지탱하는'철의 삼각형'

총체적으로"사남"평측결과가 보여준데 따르면 복잡한 추리 관련 능력은 대형모형이 보편적으로 직면한 난제이며 국내 대형모형은 GPT-4에 비해 아직도 격차가 존재한다.중국어 장면에서 국내 최신 대형 모델은 이미 독특한 우세를 보여 일부 차원에서 GPT-4 터보 수준에 근접하고 있다;오픈 소스 모델은 매우 빠르게 진보하여 비교적 작은 규모로 비교적 높은 성능 수준에 도달하여 비교적 큰 발전 잠재력을 나타낸다.
평가 결과 대언어 모델의 전체 능력은 아직 크게 향상될 여지가 있는 것으로 나타났다.백분제의 객관적인 평가기준에서 GPT-4 터보도 61.8점이라는 합격수준에 그쳤는데 이는 복잡한 추리가 여전히 큰 모형이 직면한 중요한 난제이므로 진일보한 기술혁신으로 공략해야 한다는것을 말해준다.
종합성평가에서 지보청언 GLM-4, 알리바바 Qwen-Max, 바이두 문심일언 4.0도 좋은 성적을 거두었는데 이는 이런 모델들이 비교적 균형적이고 전면적인 성능을 갖고있음을 반영한다.이들은 언어와 지식 등 기초 능력 차원에서 GPT-4 터보와 어깨를 나란히 할 수 있다.그러나 복잡한 추리, 복잡한 문제를 안정적으로 해결하는 등 국내 대형 모델은 GPT-4 터보 등 국제 최고 대형 모델과 비교할 때 아직 차이가 있다.
OpenCompass 연간 차트 (객관적 평가, 백분율)

일부 오픈 소스 모델에 대한 평가에 따르면 API (응용 프로그램 프로그래밍 인터페이스) 모델에 비해 객관적 성능과 주관적 성능에서 차이가 있습니다.이는 개원지역사회가 객관적성능을 제고하고 능력기초를 튼튼히 다져야 할뿐만아니라 더우기는 인류가 선호하는 정렬에 공을 들여야 한다는것을 말해준다.평가기준을 합리적이고 과학적으로 사용하고 모형능력에 대해 세밀한 대비와 분석을 진행하는것은 연구개발기구가 모형능력을 끊임없이 제고하는 두가지 방법문이다.
중국어와 영어 이중 언어의 객관적인 평가보다 중국어 주관적인 평가의 국내 대형 모델이 더 잘 표현된다.적지 않은 국내 기업들이 최근 발표한 모델은 여러 능력 차원에서 GPT-4 터보와의 격차를 크게 줄였다.알리바바 Qwen-Max, 지보 청언 GLM-4, 바이두 문심 4.0은 모두 우수한 성적을 거두었다.중국어 언어 이해, 중국어 지식과 중국어 창작에서 일부 국내 비즈니스 모델은 이미 매우 강한 국제 경쟁력을 가지고 있으며, 심지어 일부 차원에서 GPT-4 터보에 대한 초월을 실현하였다.
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

  •   知名做空机构香橼研究(Citron Research)周四(11月21日)在社交媒体平台X上发布消息称,该公司已决定做空“比特币大户”微策略(Microstrategy)这家公司,并认为该公司已经将自己变身成为一家比特币投资基金 ...
    caffycat
    昨天 11:18
    支持
    反对
    回复
    收藏
  •   每经AI快讯,11月20日,文远知行宣布旗下自动驾驶环卫车S6与无人扫路机S1分别在新加坡滨海湾海岸大道与滨海艺术中心正式投入运营。据介绍,这是新加坡首个商业化运营的自动驾驶环卫项目。 ...
    star8699
    3 天前
    支持
    反对
    回复
    收藏
  •   上证报中国证券网讯(记者王子霖)11月20日,斗鱼发布2024年第三季度未经审计的财务报告。本季度斗鱼依托丰富的游戏内容生态,充分发挥主播资源和新业务潜力,持续为用户提供高质量的直播内容及游戏服务,进一步 ...
    goodfriendboy
    3 天前
    支持
    反对
    回复
    收藏
  •   人民网北京11月22日电 (记者栗翘楚、任妍)2024广州车展,在新能源汽车占据“半壁江山”的同时,正加速向智能网联新能源汽车全面过渡,随着“端到端”成为新宠,智能驾驶解决方案成为本届广州车展各大车企竞 ...
    3233340
    昨天 17:06
    支持
    反对
    回复
    收藏
Mohammad61417 新手上路
  • 粉丝

    0

  • 关注

    0

  • 主题

    2