Sora, 그리고 월드모델 - 우리의 손에 들어온(?) 마법의 지팡이

이 글은 ‘튜링 포스트 코리아’에 발행된 주간 뉴스레터에서 발췌했습니다.
AI 기술, 산업, 스타트업, 그리고 사회적 영향 등에 대해 관심있으시다면 ‘튜링 포스트 코리아’ 구독 부탁드립니다.
[구독하러 가기]

크리스마스가 2주 앞으로 다가온 연말이지만, AI 업계는 변화의 속도를 늦출 기미가 전혀 안 보이네요. ^.^; 금주에는 오픈AI의 Sora, 구글 딥마인드의 Genie 2, 페이페이 리 (Fei-Fei Li)의 월드랩스 (World Labs) 이야기를 하지 않을 수 없겠습니다. 비디오도 많으니 한 번 편안히 함께 읽어 보시죠!

누가 뭐래도 금주의 헤드라인 - Sora, Genie 2, 월드 랩스

현지 시간으로 12월 9일, 오픈AI의 동영상 생성모델 Sora가 공개되었습니다. 생각만큼 Sora를 사용하는 과정이 편하지는 않았는데요:

오픈AI 팀의 소통 과정 이슈
예를 들어서, 오픈AI는 Sora가 ChatGPT Plus/Pro에 포함된다고 발표했지만, 정확히는 그런 모습은 아니었구요. 그에 대한 설명도 충분히 빠르고 상세하지는 않았습니다. 결국은 추가 구독을 하게 됐습니다.

"12 days of Shipmas" 홍보로 인한 엄청난 관심과 수요 창출
“12일간 매일 아침 새로운 제품에 대한 발표, 데모를 하겠다” - 그 자체로 멋지기도 한 이 캐치프레이즈 광고는 엄청난 관심을 끌었죠. 샘 알트만도 "생각보다 수요가 많아서 가입을 종종 비활성화해야 할 것 같고, 생성 속도도 한동안 느려질 거다”라고 말했습니다.

유럽이나 영국에 있다면 - Sora에 접근하는 것조차 힘듭니다. 우리로서는 다행(?)이라고 해야 하나요?

어쨌든, 사용해 보실 수 있다면 Sora는, 꽤 멋지다고 생각합니다. 사실은 굉장히 놀랍죠. 오픈AI가 다시 한 번 직관적인 사용자 경험을 제공해서 이 복잡한 기술을 모든 초보자들이 사용할 수 있게 하지 않았나 해요. ‘해리 포터’ 컨텍스트로 이야기한다면, 머글 (Muggle; 해리 포터 세계관에서 마법사가 아닌 사람)에게 마법의 지팡이를 쥐어준 것 같다고 할까요?

그러고보니, 2001 스페이스 오딧세이의 아서 C. 클라크가 “고도로 발달한 과학은 마법과 구별할 수 없다“고 했었던 것도 생각나네요.

Sora, 조금 써 보니까요

일단, 아무리 이렇게 저렇게 해 봐도, Sora는 실제 인물의 사실적인 모습을 생성하는 것은 허용하지 않습니다. 역사적 인물도 마찬가지구요 - 위 영상에서 저희가 만들어 보려고 했던 건, 당연히 앨런 튜링 (Alan Turing)인데요, 비슷한가요?

경쟁 모델들이 곧 이걸 할 수 있도록 하지 않을까 예상해 보면, 단점이라고 할 만한 부분이기는 한데….지금 오픈AI가 겪고 있는 저작권 관련 법적 분쟁을 감안하면 이해할 만합니다.

오픈AI의 발표에서 언급된 것처럼, Sora가 장편 영화를 만들어줄 거라고 기대한다면, 그건 불가능합니다. 그렇지만, 그 동안 얼마나 빠르게 발전했는지 생각해 보니…불과 2년 전만 해도 텍스트로 이미지 생성하는 것 자체가 어설픈 수준이었죠? 저도 이제 제 강의나 발표 자료에서, ‘여섯 손가락’이 나오는 이미지 생성 모델 이야기는 더 이상 못할 것 같네요. 이제 직관적으로 스토리보드를 만들어서 전체 비디오 클립을 만들 수 있고, 텍스틀틀 영상으로 바꾸고, 이미지 통합하고, 꽤 세련되게 다듬을 수 있게 됐습니다.

발전된 상황이나 결과물 자체가 깨나 인상적인 건 사실입니다만, 유명한 테크 유튜버 마르케스 브라운리가 올린 감상처럼, Sora에서 물리 법칙이 완벽하게 구현된 걸로 보기에는 아직 갈 길은 먼가 싶기도 해요. 마르케스 브라운리가 지적한 부분은 몇 가지인데요:

먼저 ‘대상의 영속성 (Object Permanence)’입니다. 예를 들어, 영상 전체에 걸쳐서 한 사람의 손에 들려 있는 특정 물체를 표현한다든가 할 때, 물체가 움직이거나 갑자기 사라져버리기도 합니다.

이건 Sora의 가장 큰 문제 - Sora만의 문제라기보다는 사실 아주 어려운 문제죠 - 인 ‘전반적인 물리 법칙의 문제’와 연결됩니다. 사실적인 (장편) 영상 제작이 쉽지 않을 수 있는 이유가 바로, 단순히 걷는 사람조차 부자연스럽게 속도가 느려지거나 빨라지기도 하고, 신체 부위나 물건들이 갑자기 전혀 다른 걸로 변화하기도 하거든요.

텍스트의 표현은 많이 개선된 걸로 보이지만, 아주 구체적으로 지정하지 않는다면 여전히 Sora는 건물, 도로 표지판에서 볼 수 있는 배경 텍스트의 철자를 알아보기 힘들게 만들어 버립니다.

Sora, 우리가 기다렸던 마법의 지팡이가 맞기는 한 것 같습니다. 그렇지만 아직은 마법의 지팡이도 가다듬어야 하고, 우리가 이 지팡이를 어떻게 쓸 수 있는지도 - 당연하게도 - 많은 고민이 이어져야 할 것 같습니다.

물리 법칙, 공간 지능

조금 더 들어가서 이야기를 해 보자면, 시각 데이터와 물리 법칙의 Intersection의 발전은 ‘공간 지능 (Spatial Intelligence)’이라는 개념하고 밀접하게 연관이 되어 있는데요. 우리 사람은, 이 공간 지능을 인식하지 못한 채 일상적으로 사용하고 있죠. 예를 들어, 지도를 보면서 길을 찾는다거나, 여행 가방을 싼다거나, 주차를 한다거나, 복잡한 요리 레시피 단계를 이미지로 떠올리면서 계획할 때 라든가…수없이 많습니다. 이 공간 지능은 ‘월드 모델 (World Models)’이라는 개념과 연결되는데, 이건 지금 일본 사카나AI (Sakana AI)의 데이빗 하 (David Ha)와 위르겐 슈미트후버 (Jürgen Schmidhuber; LSTM 고안하신 분이죠)가 2018년 논문 ‘World Models’에서 처음 소개한 용어입니다. 그 이후에 이 개념에 대한 논의, 그리고 구체적인 기술 측면에서 상당한 진전이 있었습니다.

지난 주 발표된 두 개의 ‘월드 모델’

구글 딥마인드에서 Genie 2를 소개했습니다. Genie 2는 단일 이미지나 텍스트 프롬프트만 사용해서 다양한, 행동 제어가 가능한 3D 환경을 생성할 수 있는 대규모의 ‘파운데이션 월드 모델 (Foundation World Model)’입니다. 방대한 비디오 데이터셋을 사용해서 훈련시킨 Genie 2는 객체 상호작용, 캐릭터 애니메이션, 중력과 조명 같은 물리적 효과를 포함한 다양한 시나리오를 시뮬레이션할 수 있습니다. 사용자는 키보드라든가 마우스 같은 표준 입력 장치를 사용해서 이렇게 생성된 세계와 실시간으로 상호작용할 수 있구요.

이것도 Sora 못지않게 중요한, AI를 위한 적응형 학습 환경을 만들어주는 의미있는 진전입니다. 이런 기술을 통해서 사용자에게 주고자 하는 경험을 빠르게 프로토타이핑할 수 있고, 실제 환경에서 작동할 AI 에이전트를 훈련, 평가하기 위한 다양한 환경을 제공할 수도 있습니다.

비슷한 맥락에서, AI의 선구자 중 하나인 페이페이 리가 공동 설립한 월드 랩스 (World Labs)는 단일 이미지에서 대화형 3D 장면을 생성하는 AI 시스템을 공개했습니다. 사용자는 웹 브라우저에서 직접 AI가 생성한 장면을 확인하고 탐험해 볼 수 있고, 해당 환경 안에서 이동한다거나 다양한 요소들과 상호작용할 수 있습니다. 다양한 예술적인 스타일과 장면을 적용해 볼 수도 있고, 실제의 물리적 특성을 가상 공간으로 가져올 수도 있습니다.

월드 랩스의 접근 방식은, 3D 세계를 인식하고, 생성하고, 상호작용할 수 있는 ‘대규모 월드 모델’을 만드는 데 초점을 맞추고 있는데요. 이 기술을 활용해서 가상 공간을 누구나 쉽게, 더 빠르게 만들 수 있게 하고자 한다고 합니다.

‘공간 지능’이 열어줄 가능성

Sora가 가장 큰 주목을 받고 있지만, Genie 2, 월드 랩스의 시스템도 모두, 혁명적인 수준의 기술이라는 점에는 개인적으로 이견이 없습니다. 이 시스템들은 기본적으로 월드 모델의 기본 원칙을 가져와서 아직 우리에게 미답의 영역으로 확장시키고 있고, 더 풍부하고 상호작용할 수 있는 3D 환경으로 변화시키고 있습니다.

2021년까지 ‘특정한 작업에 국한된 어플리케이션’ 영역에 머물렀던 AI, 그 이후 챗GPT를 위시로 한 거대 언어모델 기반의 시스템이 ‘범용 대화형 시스템’으로의 가능성을 보여주고 열어가고 있는 상황에서, 다시 한 번 ‘다목적의 몰입형 (Immersive) 시스템’을 향한 이런 도약은, 바로 ‘월드 모델’의 혁신적인 파워를 보여주는 것이 아닌가 합니다. ‘공간 지능’은 AI의 잠재력에 대한 우리의 이해에 근본적인 변화를 가져오고 있습니다. ‘평면적’ 세상의 패러다임에서 벗어나서, 우리가, 우리의 마음이 원래 생각하고, 탐험하고, 상호작용하게 설계된 3차원적인 방식을 받아들이게 해 주니까요.

앞으로 AI와 함께 할, 어떤 세상이 펼쳐질지. 기대됩니다.

음병찬 튜링 포스트 코리아 · 에디터

AI 가 도대체 뭘까 함께 생각해보는 뉴스레터

팔로우 🙌 커피챗

댓글이 없습니다.