OpenAI 최고기술책임자 최신 발표: 소라는 올해 음성 기능과 이런"건물 상품"을 추가할 계획을 발표할 것으로 예상된다

OpenAI는 이미 Sora의 강세 예열을 하고 있는 것 같다.
3 월 13 일 수요일 (현지 시간) OpenAI 최고 기술 책임자 인 Mira Murati (Mira Murati) 는 워싱턴 포스트의 비디오 인터뷰를 받았다.
무라티는 인터뷰에서 현재 소라를 이용한 동영상 생성 비용이 매우 비싸며 팀이 기술을 최적화하고 있으며 올해 공식 발표될 예정이라고 밝혔다.
무라티는 OpenAI 인공지능 문생 동영상 대형 모델인 Sora가 올해 말 공식 발표될 예정이며, OpenAI는 최종적으로 오디오 기능을 넣어 장면을 더욱 사실적으로 만들 계획이며, 동시에 사용자가 Sora가 생성한 동영상 내용을 편집할 수 있도록 할 것이라고 밝혔다.
이 외에도 무라티는 소라의 특이점, 흠집을 수정하는 방법, 오디오가 포함될 것인지, 훈련 데이터가 어디에서 왔는지 등 몇 가지 질문에 답했다.제시된 답안은 어떤 것은 막연하고 어떤 것은 성의가 부족하지 않다.
소라는 어떻게'문자를 신기하게'합니까?"인어공주와 그녀의 게 동료가 함께 스마트폰을 훑어보고 있는 장면을 상상해 보세요..."
이 미디어 인터뷰의"복지"로서 진행자는 Sora가 제공하는 여러 텍스트 힌트를 비디오 이미지로 변환 할 수있는 기회를 얻었습니다. 위의 장면은 Sora가 제공하는 비디오의 한 프레임입니다.

영상 캡처

과연 소라는 이 전환을 어떻게 이뤄냈을까요?무라티는 인어의 진화를 설명하는 것이'확산 모델'(diffusion models)의 내부 작동을 설명하는 것보다 훨씬 쉬울 수 있지만, 간단히 말해서 인공지능 모델이 대량의 동영상을 분석하고 물체와 동작을 식별하는 것을 배웠다고 말했다.그런 다음 문자 힌트를 주면 전체 장면이 그려지고 각 프레임이 채워집니다.
무라티는 OpenAI가 소라를 위해 어떤 훈련 데이터를 사용했느냐는 질문에"우리는 공개 데이터와 승인 데이터를 사용했다"고 지적했다.
또 다른 동영상에서 사회자는 소라에게 "30대에 갈색 머리를 가진 두 직업여성이 빛이 잘 드는 스튜디오에 앉아 뉴스 인터뷰를 하고 있다"며 이 인터뷰에 더 부합하는 내용을 만들어 달라고 요구했다.

영상 캡처

결국 소라가 내놓은'숙제'에서는 두 여성의 입모양과 머리카락의 움직임이나 가죽 재킷의 디테일 등 모든 것이 그렇게 사실적으로 보였다.Murati는 이 20초 분량의 720p 해상도 단편영화를 소라가 제작하는 데 몇 분이 걸렸지만 아직 사운드를 장착하는 것을 지원하지 못하고 있다고 지적했다.
그러나 무라티는 결국 목소리를 추가할 계획이라고 약속했다.
Murati는 또한 현재 Sora가 회사의 이미지 생성기 인 Dall-E보다 비디오를 생성하는 데 훨씬 많은 비용을 지출하고 있다고 밝혔다.그러나 앞으로 대중에게 공식 발표될 때 OpenAI는 계산력에 대한 수요를 낮추기 위해 최적화될 것이다.
북경시간으로 2월 16일, OpenAI는 문생영상모형 Sora를 발표했는데 효과가 놀라워 전 세계를 폭발시켰다.OpenAI가 ChatGPT를 출시해 생성형 AI 시대를 연 지 불과 14개월 만에 AI의 진화 속도는 충격적이었다.
소라가 생성한 동영상에서 녀사는 검은색 가죽옷과 붉은색 치마를 입고 네온거리를 걸으면서 주체가 련관적이고 안정되여있을뿐만아니라 대가경치에서 녀사의 얼굴표정에 대한 클로즈업 및 습한 거리바닥에서 네온등을 반사하는 빛과 그림자 효과를 포함한 여러렌즈도 있다.
Sora의 연구 결과에 따르면 비디오 생성 모델을 확장하는 것은 인공 지능이 운동의 물리적 세계를 이해하고 시뮬레이션하는 새로운 차원으로 나아갈 수있는 물리 세계 공통 시뮬레이터를 구축하는 매우 유망한 방법입니다.
업계 관계자들은 범용 인공지능 (AGI) 이 예상보다 일찍 도래해 산업 격차가 커질 것으로 예언하고 있다.이밖에 문생동영상이 가져다준 전복적인 영향은 사람들의 우려를 불러일으켰으며 또 원려자들이 진실과 가상간의 모호한 변계에 대해 반복적으로 조기경보를 했다.그러나 논란이 적은 점은 소라가 AI 응용의 착지를 가속화할 것으로 여겨진다는 점이다.
이와 함께 소라의 탄생은 AI의 미래 발전에 대한 더 많은 전망을 불러일으켰다.기술이 계속 진보함에 따라 AI는 더 많은 분야에서 더 큰 역할을 할 것이다.산업 생산, 교육 훈련, 오락 레저 등 분야를 막론하고 AI는 인류에게 더 많은 놀라움과 가능성을 가져다 줄 것이다.
2월 16일, 360 창시자 주홍의는 미니블로그를 발표하여 소라에 대한 자신의 견해를 언급했는데 주홍의는 소라의 탄생은 AGI (통용인공지능) 실현이 10년에서 1~2년으로 단축될수 있다는것을 의미한다고 인정했다.
소라의 가장 큰 우세에 대해 주홍의는 다음과 같이 표시했다. 이전에 문생영상소프트웨어는 모두 2D평면에서 도형요소를 조작했는데 동영상을 여러개의 진실한 그림의 조합으로 볼수 있으며 진정으로 이 세계의 지식을 장악하지 못했다.그러나 소라가 생성한 동영상에서는 탱크가 큰 충격을 받는다는 것을 사람처럼 이해할 수 있다. 탱크는 자동차를 충돌할 수 있고 자동차가 탱크를 충돌할 수 있는 상황은 나타나지 않는다."이번 OpenAI는 그의 큰 언어 모델의 장점을 이용하여 소라가 현실 세계에 대한 이해와 세계에 대한 모의 두 가지 능력을 실현할 수 있게 했다. 이렇게 생성된 동영상이야말로 진실하고 2D의 범위에서 벗어나 진실한 물리 세계를 모의할 수 있다."
저우훙은 대형 모델 기술을 기초로 하고, 게다가 인류 지식의 인도가 있으면 각 분야의 슈퍼 도구를 창조할 수 있는데, 예를 들면 생물의학, 단백질, 유전자 연구, 물리, 화학, 수학을 포함한 학과 연구에서 대형 모델이 모두 역할을 발휘할 것이라고 언급했다.
"일단 인공지능이 카메라를 연결하고 모든 영화를 한 번 보고 유튜브와 틱톡의 동영상을 한 번 보면 세계에 대한 이해가 문자 학습을 훨씬 능가할 것이다. 한 폭의 그림이 천 마디 말보다 낫다. 이것은 AGI에서 정말 멀지 않다. 10년 20년의 문제가 아니다. 아마도 1~2년 안에 실현될 수 있을 것이다."저우훙이는 감개무량했다.
매일경제신문 종합OpenAI 홈페이지, 매일경제신문, 공개자료

亿航智能获准在巴西开展EH216-S测试和试飞活动

美债不香了？三大海外“债主”齐缩水日本美债持仓四连降

蔚来新品牌乐道首款车型L60上市售价低至14.99万元

专访车车科技CEO张磊：嵌入式、长周期价值、“数据+AI”驱动会成为新能源车险未来三大关键词

OpenAI 최고기술책임자 최신 발표: 소라는 올해 음성 기능과 이런"건물 상품"을 추가할 계획을 발표할 것으로 예상된다

亿航智能获准在巴西开展EH216-S测试和试飞活动

美债不香了？三大海外“债主”齐缩水 日本美债持仓四连降

蔚来新品牌乐道首款车型L60上市 售价低至14.99万元

专访车车科技CEO张磊：嵌入式、长周期价值、“数据+AI”驱动会成为新能源车险未来三大关键词

美债不香了？三大海外“债主”齐缩水日本美债持仓四连降

蔚来新品牌乐道首款车型L60上市售价低至14.99万元