首页 报纸 正文

ビッグモデル評価ランキング発表:GPT-4が1位、智譜、阿里、百度製品がトップ5入り

甚着维苦得
1333 0 0

上海人工知能実験室は昨日、2023年度の大モデル評価ランキングを発表した。大モデルのオープンソース・オープン評価システム「司南」(OpenCompass 2.0)による国内外の主流大モデルの全面評価診断を経て、中英バイリンガル評価のトップ10が発表された:OpenAIが開発したGPT-4ターボが1位になり、2位から5位の順に:智譜清言GLM-4、アリババQwen-Max、百度文心一言4.0、アリババQwen-72 B-Chatだった。
昨年7月に発表されて以来、「司南」(OpenCompass)は学術界と産業界で広く注目され、すぐに世界をリードする大モデル能力評価システムとなった。Meta社のLlama大モデル研究開発チームは、公式に推薦された能力評価ツールの1つとして、中国の機関が開発した唯一の評価ツールでもある。アリババ、テンセント、百度などの会社もその大モデルの研究開発と応用に「司南」を使用している。
OpenCompass 2.0中英バイリンガル客観評価トップ10(パーセンテージ方式を採用、商用クローズドソースモデルはAPI形式試験に合格、オープンソースモデルは直接モデル重みで試験)

「大モデル評価の最大の意義はランキング順位にあるのではなく、評価結果を通じて改善作業を指導することだ」と上海人工知能実験室のリーダーで科学者の林達華教授は言う。「一部の大モデル研究開発機構は『問題海戦術』を通じて評価成績を高め、結果が大モデルの実際の能力を如実に反映できないようにした。モデルをこのような『高得点低エネルギー』状態にして、最終的に傷つけたのは研究開発機構そのものだ」
大モデルの実際の能力をよりリアルに、全面的に反映するために、「司南」評価システムは最近OpenCompass 2.0にアップグレードされ、大モデルの評価を支える「鉄三角」、権威評価ランキングCompassRank、高品質評価基準コミュニティCompassHub、評価ツールチェーンシステムCompassKitが含まれている。この評価システムは、言語と理解、常識と論理推論、数学計算と応用、マルチプログラミング言語コード能力、エージェント、創作と対話などの多方面をカバーする高品質の中国語と英語のバイリンガル評価基準を構築している。また、モデルの真の能力を全面的に診断するための複数の能力評価方法を革新しました。
大モデル評価を支える「鉄三角」

全体的に言えば、「司南」の評価結果によると、複雑な推理関連能力は大モデルが普遍的に直面している難題であり、国内の大モデルはGPT-4と比べてまだ差がある、中国語シーンの下で、国内の最新の大モデルはすでに独特の優位性を示しており、一部の次元ではGPT-4 Turboのレベルに近づいている。オープンソースモデルは進歩が速く、小さなマスで高い性能レベルに達し、大きな発展潜在力を示している。
評価の結果、大言語モデルの全体的な能力にはまだ大きな向上余地があることも明らかになった。百分率制の客観的評価基準の中で、GPT-4 Turboも61.8点という合格レベルにしか達しておらず、複雑な推理は依然として大モデルが直面する重要な難題であり、さらなる技術革新が攻略に必要であることを示している。
総合的な評価では、智譜清言GLM-4、アリババQwen-Max、百度文心の一言4.0も良い成績を収め、これらのモデルが比較的均衡と全面的な性能を持っていることを反映している。言語や知識などの基礎的な能力次元では、GPT-4 Turboに匹敵することができます。しかし、複雑な推理、複雑な問題の確実な解決などの面で、国内の大モデルはGPT-4 Turboなどの国際的なトップモデルと比べて、まだ一定の差がある。
OpenCompass年間ランキング(客観的評価、パーセント制)

いくつかのオープンソースモデルの評価によると、それらはAPI(アプリケーションプログラミングインターフェース)モデルと比べて客観的な性能と主観的な性能の面で差がある。これは、オープンソースコミュニティが客観的な性能を向上させ、能力の基礎を固める必要があるだけでなく、人間の好みの位置合わせを工夫する必要があることを示している。評価基準を合理的かつ科学的に使用し、モデル能力を綿密に比較・分析することは、研究開発機構がモデル能力を絶えず向上させるための二法門である。
中国語と英語のバイリンガルの客観的評価よりも、中国語の主観的評価の国内大モデルの方が優れている。多くの国内企業が最近発表したモデルは、複数の能力次元でGPT-4ターボとの差を大幅に縮小している。アリババQwen-Max、智譜清言GLM-4、百度文心4.0はいずれも優秀な成績を収めた。中国語の言語理解、中国語の知識、中国語の創作において、一部の国内ビジネスモデルはすでに強い国際競争力を持っており、一部の次元でGPT-4 Turboの追い越しを実現している。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

  •   据美国CNBC网站报道,当地时间10月3日,美国特斯拉公司表示,由于后视摄像头图像延迟,可能会影响驾驶员视野,增加撞车风险,公司将在全美范围内召回超过2.7万辆电动皮卡。   报道称,这是该公司对电动皮卡 ...
    hk1990
    前天 10:21
    支持
    反对
    回复
    收藏
  •   蔚来汽车发布《蔚来能源9月加电报告》,截至9月30日,蔚来在全国建设换电站2556座。其中高速公路换电站859座,累计为用户提供换电服务超5410万次,提供电池灵活升级服务295366次。截至9月30日,蔚来布局充电站40 ...
    1234ljx
    昨天 19:01
    支持
    反对
    回复
    收藏
  • 【规模创造历史:特斯拉召回超2.7万辆电动皮卡】特斯拉公司宣布,由于后视摄像头图像存在延迟问题,可能对驾驶员视野造成影响并增加碰撞风险,因此将在全美范围内召回超过2.7万辆Cybertruck。报道称,这是该公司迄今 ...
    事业为上
    前天 09:47
    支持
    反对
    回复
    收藏
  •   北京商报讯(记者刘晓梦)10月5日,蔚来宣布已与CYVN签署战略合作协议,将在阿联酋阿布扎比建立技术研发中心。此外,蔚来与CYVN还将联合研发一款针对当地市场的全新车型。   同时,蔚来还宣布,将正式在中东 ...
    禹阳之子
    昨天 16:11
    支持
    反对
    回复
    收藏
甚着维苦得 新手上路
  • 粉丝

    0

  • 关注

    0

  • 主题

    5