서울대학교 공과대학은 전기정보공학부 한보형 교수가 지도하는 컴퓨터비전 연구팀(CVLAB)이 별도의 학습 없이 무한한 길이의 비디오를 생성할 수 있는 혁신적인 인공지능(AI) 기술 ‘피포 디퓨전(이하 FIFO-Diffusion)’을 개발했다고 밝혔다.
기존 영상 생성 모델의 한계를 극복한 FIFO-Diffusion은 디퓨전 모델에 기반한 비디오 생성 기술의 새로운 방법론을 제시했다는 평가를 받고 있다. 이 기술을 제안한 논문 ‘FIFO-Diffusion: Generating Infinite Videos from Text without Training’은 지난 10월에 인공지능 및 기계학습 분야 국제학술대회인 ‘NeurIPS 2024 (Neural Information Processing Systems, 신경정보처리시스템학회)’의 발표 논문으로 채택돼 학계와 산업계의 주목을 받은 바 있다. NeurIPS는 인공지능 및 딥러닝 분야의 최신 연구 성과와 혁신적 기술이 발표되는 자리로 매년 엄격한 심사를 통과한 우수한 논문이 발표 논문으로 선정된다.
기존의 비디오 생성 모델은 영상 길이가 길어질수록 메모리 소모가 급격히 증가해 대규모 하드웨어 자원이 필요했을 뿐 아니라 프레임 간 일관성 유지에 어려움이 있어 부자연스러운 영상을 생성하는 한계가 있었다. 이에 연구팀은 메모리 사용량을 일정하게 유지하면서도 각 프레임이 자연스럽게 연결되는 영상을 생성하는 FIFO-Diffusion을 개발했다. 이 획기적인 기술은 사전에 짧은 클립을 통해 훈련된 디퓨전 모델이 추가 학습 없이 텍스트 조건에 맞춰 무한한 길이의 비디오를 생성하도록 설계됐기 때문에 고화질의 비디오를 장시간 생성할 수 있다.
특히 이번 연구에서는 비디오 품질 개선을 위해 세 가지의 혁신적 기법이 활용돼 관심을 끌었다. 먼저 각기 다른 노이즈 레벨의 비디오 프레임을 일련의 큐(queue) 형태로 동시에 처리하는 ‘대각선 디노이징(diagonal denoising)’ 기법을 통해 디퓨전 모델이 품질 저하 없이 무한히 긴 비디오를 생성하는 것을 가능케 했다. 이어서 프레임을 여러 블록으로 나눠 병렬 처리하는 ‘잠재 파티셔닝(latent partitioning)’ 기법으로 프레임 간 노이즈 레벨 차이를 줄였다. 그리고 새로 생성될 프레임들이 이전에 생성된 더 깨끗한 프레임을 참조하도록 하는 ‘앞서보기 디노이징(lookhead denoising)’ 기술을 도입해 후반 프레임의 손실을 감소시켜 더욱 선명한 비디오 출력을 구현할 수 있었다. 마지막으로 연구진은 비디오 생성 속도와 품질을 한결 높인 이 기법들을 다중 GPU에 병렬로 적용해 효율성을 극대화함으로써 무한히 긴 영상을 생성하는 비디오의 실현 가능성을 입증했다.
FIFO-Diffusion 기술은 향후 영화, 광고, 게임, 교육 등 다양한 콘텐츠 산업에서 널리 활용될 것으로 기대된다. 기존의 텍스트 기반 비디오 생성 모델들은 3초 이내의 짧은 클립만 생성할 수 있어 실제 콘텐츠 제작에 이용되기 어려웠지만, 이러한 제약을 뛰어넘은 FIFO-Diffusion 기술이 상용화되면 길이 제한 없이 더 자연스러운 비디오를 생성할 수 있기 때문이다. 또한 학습을 위한 대규모 하드웨어 자원이나 방대한 데이터를 필요로 하지 않는 강점 덕분에 FIFO-Diffusion이 AI에 기반한 영상 콘텐츠 제작을 한층 활성화할 전망이다.
연구를 지도한 한보형 교수는 “기존 비디오 생성 모델의 한계를 깬 FIFO-Diffusion은 별도의 학습 없이 무한한 길이의 비디오를 생성한다는 새로운 개념을 수립했다는 점에서 의미가 남다르다”며 “향후 이 기술을 바탕으로 다양한 후속 연구를 이어 나갈 계획”이라고 밝혔다. 논문의 주 저자인 김지환 연구원은 “이번 개발로 비디오 생성 기술이 영상 콘텐츠 분야에서 폭넓게 사용될 수 있는 토대가 마련됐다”고 연구의 의미를 설명했다.
한편 연구 논문의 공동 제1저자인 김지환, 강준오 연구원은 현재 서울대 컴퓨터비전 연구실에서 비디오 생성 분야의 후속 연구를 심도 깊게 수행하고 있다.