리언굉은 큰 모형의"점수달리기"허상을 폭로했다. 순위표는 모든 실력의 미래모형의 격차가 커지는것을 대표하지 않는다

새로운 버전의 대형 모델이 출시될 때마다 업계는 항상 타사 차트 데이터를 인용하여 자사의 대형 모델을 GPT-4와 함께 & amp;quot;점수 뛰기 & amp;quot;，이미 어떤 지표에서 초월을 이루었다고 주장함으로써 자신의 큰 모델 기술력을 증명한다.
그러나 최근 바이두 회장 리옌훙과 내부 직원들의 교류에서 그를 찔러 대형 모델 업계 점수의 & amp;quot;창호지 & amp;quot;。&quot;매번 새로운 모델이 발표될 때마다 GPT-4o와 비교해야 한다. 나의 득점은 이미 그것과 많이 차이가 나지 않는다. 심지어 일부 항목에서 득점은 이미 그것을 초과했다. 그러나 이것은 가장 선진적인 모델과 차이가 없다는 것을 나타내지 않는다. &quot;
그는 더 나아가 모델 간의 격차가 다차원적이라고 설명했다.하나의 차원은 능력방면으로서 리해능력, 생성능력, 론리추리능력, 기억능력 등 이런 기본능력상의 격차를 막론하고다른 한 차원은 원가방면이다. 일부 모델은 비록 같은 효과를 거둘수 있지만 원가가 높고 추리속도가 느리지만 사실 여전히 선진모델보다 못하다.
　　&quot;그리고 테스트 세트의 over-fitting에 대해 자신의 능력을 증명하고 싶은 모든 모델은 차트를 친다. 차트를 칠 때 그는 다른 사람이 도대체 무엇을 측정하고 있는지, 어떤 문제를 내가 어떤 기교로 맞출 수 있는지 맞춰야 한다. 그래서 차트나 테스트 세트에서 볼 때 당신은 능력이 이미 매우 가깝다고 생각하지만 실제 응용에는 여전히 뚜렷한 차이가 있다. &quot;리언굉이 말했다.
한 대형 모델 종사자는 기자에게 리옌훙이 언급한 측시집의 over-fitting (과의합) 은 주로 모델 훈련 과정에서 모델이 훈련 데이터에 대한 학습이 너무 정교하여 모델이 훈련 데이터에서 매우 잘 표현되지만 보지 못한 테스트 데이터에서 비교적 나쁜 현상을 가리킨다고 말했다.이것은 일반적으로 모델이 너무 복잡하여 & amp;quot;기억하기 & amp;quot;훈련 데이터의 소음과 세부 사항, 그러나 이러한 세부 사항과 소음은 보편적이지 않기 때문에 모델은 더 많은 새로운 데이터에 잘 보급될 수 없습니다.
상술한 인사들은 순위 달리기 점수에 확실히 한계가 있다고 생각한다. 예를 들어 평가 데이터 세트의 공개성 때문에 모델은 목적성 있게 훈련하여 순위를 끌어올릴 수 있다. & amp;quot;스밍 & amp;quot;현상, 그러나 전혀 의미가 없는 것은 아니다. 차트는 상대적으로 계량화된 평가 기준을 제공하여 사람들이 서로 다른 큰 모델의 성능을 빠르게 이해할 수 있도록 돕고, 모두가 경쟁을 통해 큰 모델의 기술 수준을 끊임없이 최적화하도록 촉진하며, 또한 일정한 선전과 보급의 역할을 한다.
리옌훙이 보기에 & amp;quot;일부 자체 매체의 과대 광고, 게다가 모든 새로운 모델이 발표될 때마다 홍보의 동력이 있기 때문에, 모두들 모델 간의 능력 차이가 이미 비교적 작다고 생각하는 인상을 갖게 되는데, 사실 정말 그렇지 않다.&quot;리언굉은 다음과 같이 말했다. 실제사용과정에서 바이두는 기술자들이 차트를 치는것을 허용하지 않는다. 진정으로 큰 모형능력을 측정하는것은 구체적인 응용장면에서 사용자의 수요를 만족시키고 가치증익을 산생할수 있는가 없는가를 보아야 한다.
그리고 대형 모델 업계에 대해 자주 언급되는 & amp;quot;12개월 앞서거나 18개월 뒤처진다 & amp;quot;，그는 그렇게 중요하지 않다고 생각했다.모든 회사가 완전히 경쟁하는 시장 환경에 처해 있기 때문에 어떤 방향을 하든 많은 경쟁자가 있습니다. &quot;만약 당신이 12~18개월의 상대를 영원히 앞설 수 있다면, 그것은 천하무적이다. 12~18개월은 아주 짧은 시간이라고 생각하지 마라. 설령 당신이 6개월 동안 경쟁자를 영원히 앞설 수 있다고 보장한다면, 그것은 승리할 것이다. 당신의 시장 점유율은 70% 일 수도 있고, 상대는 20% 심지어 10% 의 점유율에 불과할 수도 있다. &quot;
그는 앞으로 큰 모델 간의 격차가 점점 더 커질 수 있다고 판단했다.큰 모델의 천장이 매우 높기 때문에 현재 이상적인 상황과는 거리가 매우 멀기 때문에 모델은 끊임없이 빠르게 반복되고 업데이트되고 업그레이드되어야 한다;몇 년, 십여 년을 하루처럼 투입하여 끊임없이 사용자의 수요를 만족시키고 원가를 낮추고 효율을 높여야 한다.
대형 모델 경쟁에 장벽이 있는지 논의하는 것 외에도 교류에서 리옌훙은 오픈 소스 폐쇄 모델 효율, AI 에이전트 등 대형 모델에 대한 외부의 오해가 상당히 많다고 언급했다.
리옌훙은 폐원대모델의 확고한 지지자, & amp;quot;대형 모델 시대에 앞서 오픈 소스는 무료, 낮은 비용을 의미한다는 것에 익숙해졌습니다. &quot; 그는 예를 들어 오픈 소스 리눅스는 이미 컴퓨터가 있기 때문에 리눅스를 사용하는 것은 무료라고 설명했다.그러나 이런 것들은 큰 모형 시대에 성립되지 않는다. 큰 모형 추리는 매우 비싸다. 오픈 소스 모형도 계산력을 보내지 않는다. 또한 스스로 설비를 사야 한다. 계산력의 고효율 이용을 실현할 수 없다.
　　&quot;효율상 오픈 소스 모델은 안 됩니다. &quot; 그는 &quot; 폐원 모델은 정확히 말하면 비즈니스 모델이라고 해야 한다. 수많은 사용자들이 연구 개발 비용을 분담하고 추리용 기계 자원과 GPU를 분담한다. GPU의 사용 효율은 가장 높다. 바이두 문심 대형 모델의 3.5, 4.0의 GPU 사용률은 모두 90% 대에 달한다. &quot;
리옌훙은 교수과학연구 등 분야에서 오픈 소스 모델은 가치가 있다고 분석했습니다.그러나 비즈니스 분야에서 효율, 효과, 최저 비용을 추구할 때 오픈 소스 모델은 장점이 없다.
큰 모델의 응용 진화 방식에 관해서도 그는 자신의 관점을 표현했는데, 먼저 나타난 것은 Copilot으로 사람을 보조한다;다음은 Agent 지능체로서 일정한 자주성이 있어 자주적으로 도구를 사용하고 반성하며 스스로 진화할수 있다.이런 자동화 정도가 다시 발전하면 AI Worker가 되어 각 방면의 일을 독립적으로 완성할 수 있다.
현재 지능체는 이미 점점 더 많은 대형 모델 회사 및 고객의 관심을 받고 있다. 리옌훙은 비록 많은 사람들이 이 발전 방향을 긍정적으로 보고 있지만, 오늘날까지 지능체는 아직 공감대가 아니라고 생각한다.
　　&quot;지능체의 문턱은 확실히 낮다 & amp;quot;， 그는"많은 사람들이 큰 모델을 응용으로 만드는 방법을 모르지만 지능체는 매우 직접적이고 효율적이며 간단한 방식"이라며"모델 위에 지능체를 구축하는 것이 상당히 편리하다"고 말했다.

亿航智能获准在巴西开展EH216-S测试和试飞活动

美债不香了？三大海外“债主”齐缩水日本美债持仓四连降

蔚来新品牌乐道首款车型L60上市售价低至14.99万元

专访车车科技CEO张磊：嵌入式、长周期价值、“数据+AI”驱动会成为新能源车险未来三大关键词

리언굉은 큰 모형의"점수달리기"허상을 폭로했다. 순위표는 모든 실력의 미래모형의 격차가 커지는것을 대표하지 않는다

亿航智能获准在巴西开展EH216-S测试和试飞活动

美债不香了？三大海外“债主”齐缩水 日本美债持仓四连降

蔚来新品牌乐道首款车型L60上市 售价低至14.99万元

专访车车科技CEO张磊：嵌入式、长周期价值、“数据+AI”驱动会成为新能源车险未来三大关键词

美债不香了？三大海外“债主”齐缩水日本美债持仓四连降

蔚来新品牌乐道首款车型L60上市售价低至14.99万元