영상 업계, 탈출까지 1년 남았다

2월 15일, OpenAI가 비디오 생성 모델인 Sora를 발표했습니다. Sora는 기존의 비디오 생성 모델에 비해 압도적인 해상도와 퀄리티로 많은 사람들을 놀라게 했습니다. AI는 영상 분야에서 얼마나 빠르게 발전했을까요? 그리고 앞으로 어떤 변화들을 만들어낼까요? 오늘은 이에 대해 자세히 알아보겠습니다.

*이 글에 나오는 영상은 모두 Sora로 생성된 영상입니다. 추가적인 편집은 없습니다.

복잡한 AI 업계를 쉽게 풀어드립니다
클루잇 뉴스레터를 무료로 구독하고
매주 새로운 소식을 받아보세요

영상 생성이 어려운 이유

영상은 생성형 AI에게 가장 어려운 분야 중 하나입니다.
자연스러운 동영상을 생성하려면 수많은 문제들을 해결해야 합니다.

복잡한 데이터

영상은 텍스트, 오디오, 이미지에 비해 훨씬 복잡한 데이터입니다.
이미지가 가로와 세로의 2차원적인 데이터라면, 영상은 여기에 시간이 더해진 3차원적인 데이터라고 할 수 있습니다. 데이터가 복잡할수록 학습 난이도가 올라가고 연산량도 늘어납니다. 기존에는 이 연산량을 낮추기 위해 현업에서는 사용할 수 없는 저해상도의 짧은 영상들 위주로 생성이 가능했습니다.

일관성

강아지가 지나가는 사람에게 가려졌다가 다시 등장해도 동일한 모습을 하고 있습니다. 동영상은 기본적으로 수많은 이미지(프레임)들이 1초에 수십 번, 연속적으로 나오는 화면입니다. 따라서 동영상을 생성한다는 것은 프레임들을 생성한다는 것인데, 각 프레임에 나오는 사물들의 생김새나 움직임이 일관적으로 유지되게하는 것은 상당히 어려운일이었습니다.

세상에 대한 이해

캔버스에 붓터치를 하면 그림이 그려지고, 유리창에 사물들이 반사되는 것은 사람에겐 너무 당연한 일입니다. AI가 생성한 영상에서도 이런 세상의 물리법칙이 반영이 되어야 자연스러운 결과물이 나올 수 있습니다. AI는 물리법칙을 하나하나 배우는 것이 아니라, 수많은 데이터를 보고 패턴을 찾는 식으로 학습 하는데, 이 또한 쉬운 일은 아니었습니다.

Sora는 다르다

그리고 2024년 2월 현재, 이 문제들이 제법 해결된 Sora가 나왔습니다. Sora는 1920x1080의 고해상도 영상을 1분 길이로 생성할 수 있습니다. 일반적으로 드라마의 한 컷이나 유튜브에 삽입하는 자료화면의 길이가 10초를 넘지 않는 점을 생각했을 때, 이제 AI를 현업에서 써 볼만 해졌다고 할 수 있습니다.
Sora의 대표적인 특징을 간단하게 짚고 가겠습니다.

말을 잘 알아듣는다

Sora는 기본적으로 프롬프트를 입력하면 영상을 생성할 수 있습니다. 이런 프롬프트 기반의 생성 모델은 사용자가 입력한 프롬프트를 얼마나 잘 반영할 수 있는 지가 중요합니다. Sora는 기존의 모델들에 비해 프롬프트의 내용을 정확하게 표현할 수 있습니다.

3차원적인 구조를 잘 표현한다.

영상을 보면 카메라 구도가 계속 바뀌는 과정에서 사물들의 배치가 일관적으로 유지됩니다. 별도의 3D 모델링이 없어도 Sora는 입체적인 구조를 자연스럽게 표현할 수 있습니다.

세상의 이치를 반영한다.

햄버거를 베어 물면 그 부분이 파이는 것은 당연합니다. 그러나 기존의 AI 모델들은 한 입 물어도 햄버거가 원형을 유지하는 등 세상의 이치를 반영하지 않은 영상들을 생성했습니다. Sora는 이런 부분을 자연스럽게 표현함으로써 사람이 보기에 어색함이 없는 장면을 그려낼 수 있습니다.

Sora는 현재 소수의 테스터들만이 제한적으로 사용할 수 있습니다. 트위터나 레딧 등에서 Sora가 생성한 멋진 영상들이 실시간으로 올라오고 있습니다.

발전할 여지는 많다

물론 Sora도 완벽하지 않습니다. 아직 실제 영상에 비하면 어색한 부분이 보이고 해상도나 길이도 더 발전이 필요합니다. 그러나 지금까지의 발전 속도와 앞으로 추가적인 상황들을 고려하면 기대가 많이 됩니다.

추가적인 학습

OpenAI는 이미 몇몇 모델들에 대해 커스텀하게 추가 학습(Fine Tunning)을 할 수 있도록 열어두었습니다. OpenAI가 공개한 자료에 따르면 "특정 태스크"에 대해서 추가 학습을 한 GPT-3.5가 GPT-4 보다 더 나은 성능을 보여주었고, 이는 이미지 생성 AI에서도 마찬가지였습니다. 만약 Sora 같은 비디오 생성 AI도 추가 학습이 가능해진다면 애니메이션, CCTV, 스포츠 등 특정 목적에 대해 훨씬 뛰어난 성능을 낼 수 있을 겁니다.

기하급수적인 발전

불과 2년전, 구글의 비디오 생성 모델인 Imagen Video는 1280x768 해상도의 영상을 5초 길이로 생성할 수 있었습니다. 그마저도 영상의 퀄리티가 지금에 비하면 매우 부족했습니다. 이제는 훨씬 높은 품질의 영상을 만들 수 있으면서도, 1920x1080의 영상을 1분 길이로 생성할 수 있습니다. 여기에 추가적인 업스케일링을 하거나 앞 뒤 구간을 추가 생성한다면 더더욱 활용도가 높아질 것입니다. 머지 않아 4K 영상을 뽑아 내는 것도 가능해 질 것으로 보입니다.

OpenAI의 큰 그림

Sora의 기술 보고서의 제목은 "세상 시뮬레이션을 위한 비디오 생성 모델"입니다. OpenAI는 단순히 영상 제작을 위해 Sora를 만든 것이 아닙니다. 앞서 언급했듯 비디오를 잘 생성한다는 것은 복잡한 세상을 정확하게 이해한다는 것입니다. 따라서 OpenAI는 이 생성 모델을 활용하여 가상의 세상을 만들고 여러가지 상황을 시뮬레이션 하고자 하는 것으로 보입니다.

OpenAI가 꿈꾸는 미래는 정확히 알 수 없지만 상상할수록 놀랍기도 무섭기도 합니다. 세상 시뮬레이션이란 과연 무엇을 의미하는 것일까요?

복잡한 AI 업계를 쉽게 풀어드립니다
클루잇 뉴스레터를 무료로 구독하고
매주 새로운 소식을 받아보세요

Pickyz Pickyz · CEO

뾰족한 서비스를 만듭니다

팔로우 🙌 커피챗

댓글이 없습니다.

영상 생성이 어려운 이유

Sora는 다르다

발전할 여지는 많다

OpenAI의 큰 그림

복잡한 AI 업계를 쉽게 풀어드립니다클루잇 뉴스레터를 무료로 구독하고매주 새로운 소식을 받아보세요

복잡한 AI 업계를 쉽게 풀어드립니다
클루잇 뉴스레터를 무료로 구독하고
매주 새로운 소식을 받아보세요