본문 바로가기
프로그래밍/AI

영상을 생성하는 AI (Gen-2, DAMO)

by 꾸션 2023. 3. 27.

Text-to-Image 생성 인공지능이 공개된 지 얼마 되지 않았는데, 이제는 영상을 생성하는 인공지능이 나와서 소개해 드리기 위해 포스팅합니다. (Gen-2, DAMO)

 

Text-to-Text(대표: ChatGPT), Text-to-Image, Image-to-Image(DALL-E, Stable Diffusion, Midjourney)에서 이제 영상을 생성하는 인공지능(AI)이 나왔습니다.

 

1. Gen-2

1.1. Gen-2 소개 및 기능

오늘 소개해드릴 인공지능은 그중에서 "Gen-2(runway Reasearch)"입니다.

Gen-2(영상 생성 인공지능)는 단순 Text-to-Video를 넘어섰습니다. 아래와 같은 다양한 방법으로 영상 생성이 가능합니다.

  • Text-to-Video: 텍스트에서 영상 생성
  • Text+Image-to-Video: 텍스트와 이미지로 영상 생성
  • Image-to-Video: 이미지를 기반으로 영상 생성
  • mockups-to-Video: 목업영상에서 원하는 영상 생성
  • Video-to-Video(Stylization): 영상에 스타일 이미지를 주어서 영상 생성
  • Video-to-Video(Mask): 영상에 마스크를 입혀서 해당 위치에 영상 재생성
  • Video-to-Video(Render): 텍스처가 없는 뼈대 영상에 텍스처를 입힌 영상 생성
  • Video-to-Video(Customization): 기본 영상에 원하는 이미지로 영상 생성

 

1.2. Gen-2 예제

아래에 실제 예제를 간략히 보여드립니다.

 

Text-to-Video

영상 생성 인공지능은 가장 기본인 "Text-to-Video" 예제입니다.

아래의 영상 생성을 위해 Prompt에 입력된 텍스트는 "Aerial drone footage of a mountain range."입니다.

아래는 스틸 이미지와 실제 생성된 동영상 링크입니다.

Text-to-Video 예제

영상링크: https://d3phaj0sisr2ct.cloudfront.net/research/gen1/videos/landscape/landscape.webm

 

Text+Image-to-Video

아래는 텍스트와 이미지를 입력(왼쪽)하여 영상(오른쪽)을 출력한 모습니다.

Text+Image-to-Video 예제

영상링크: https://d3phaj0sisr2ct.cloudfront.net/research/gen1/videos/eugene/eugene.webm

 

Image-to-Video

입력된 이미지를 기반으로 영상을 만들어낸 모습니다.

Image-to-Video 예제

영상링크: https://d3phaj0sisr2ct.cloudfront.net/research/gen1/videos/beach/beach.webm

 

mockups-to-Video

위쪽에 목업용 영상을 기반으로 아래에 영상을 생성한 모습니다.

 

목업 영상

mockups-to-Video의 목업 예제

 

생성된 영상

mockups-to-Video의 결과 영상

소스영상 링크: https://d3phaj0sisr2ct.cloudfront.net/research/gen1/videos/storyboard/storyboard_input.webm

결과영상 링크: https://d3phaj0sisr2ct.cloudfront.net/research/gen1/videos/storyboard/storyboard_generated.webm

 

Video-to-Video(Stylization)

왼쪽 영상에 스타일을 주입하기 위한 이미지를 입력하여, 최종적으로 오른쪽에 영상을 출력한 모습입니다.

영상링크: https://d3phaj0sisr2ct.cloudfront.net/research/gen1/videos/dancer/dancer_generated.webm

 

Video-to-Video(Mask)

왼쪽 영상에 masking을 하고, 해당 위치에 점을 그려 넣은 영상을 출력한 모습입니다.

Video-to-Video(Mask) 예제

영상링크: https://d3phaj0sisr2ct.cloudfront.net/research/gen1/videos/dog/dog_generated.webm

 

Video-to-Video(Render)

3D로 작업한 뼈대 영상에 텍스처를 입혀서 렌더링 한 영상 예제입니다.

Video-to-Video(Render) 예제

영상링크: https://d3phaj0sisr2ct.cloudfront.net/research/gen1/videos/scuba/scuba_generated.webm

 

Video-to-Video(Customization)

위쪽 기본 영상에 커스텀 이미지로 재 생성한 영상 예제입니다.

 

소스 영상

Video-to-Video(Customization)의 소스


생성된 영상

Video-to-Video(Customization) 결과물

소스영상 링크: https://d3phaj0sisr2ct.cloudfront.net/research/gen1/videos/custom/custom_input.webm

결과영상 링크: https://d3phaj0sisr2ct.cloudfront.net/research/gen1/videos/custom/custom_generated.webm

 

2. DAMO

2.1 DAMO 소개

DAMO는 Alibaba Group의 기술 연구 및 개발 부서로, "Discovery, Adventure, Momentum and Outlook"의 약자입니다. 이 부서는 인공 지능, 블록체인, 사물 인터넷 등 첨단 기술 분야에서 연구 및 개발을 수행하고 있습니다.

DAMO는 세계적인 기술 인재를 모아 미래 지향적인 연구를 지속적으로 진행하며, 이를 통해 Alibaba Group의 다양한 비즈니스 분야에서 혁신적인 제품과 서비스를 개발하고 있습니다. DAMO는 이를 위해 매년 약 10억 달러 이상의 연구 예산을 투자하고 있습니다.

DAMO의 연구 분야에는 인공 지능, 머신 러닝, 자연어 처리, 컴퓨터 비전, 로봇 공학, 블록체인, 사물 인터넷, 클라우드 컴퓨팅 등이 포함됩니다. 이러한 연구를 통해 Alibaba Group은 미래 비즈니스의 발전에 대한 선도적인 역할을 수행하고 있습니다.

오늘은 이중 Video생성에 관련된 프로젝트가 Hugging Face에 공개가 되어 있어 이를 체험해 보도록 하겠습니다.

 

2.2 DAMO 체험해 보기

DAMO의 Text-to-Video의 Hugging Face 주소 링크는 아래와 같습니다.

 

ModelScope Text To Video Synthesis - a Hugging Face Space by damo-vilab

 

huggingface.co

인터페이스는 아래와 같습니다.

DAMO의 Hugging Face에서 제공하는 인터페이스

Prompt에 "a video taken from a helicopter over the city center"를 직접 생성해 본 결과물은 아래와 같습니다.

결과물은 약 2초짜리 영상이 만들어졌으며, 만들어지는데 약 1분가량 소요되었습니다.

 

마치며...

아직 완성단계에 이르지는 못 하였지만, 곧 완성단계에 이르게 되면, Tik-Tok, Youtube Short 폼형태의 영상이 엄청나게 쏟아질지도 있을 것 같습니다.

인공지능 시장이 정말 하루가 다르게 변하고 있습니다. 그 속도가 정말 어마어마하게 빠르게 진행되고 있는 것 같습니다. 앞으로는 개발을 하고, 디자인을 하는 시대가 점점 더 없어지고, 누가 더 인공지능에게 명령을 잘 내리는지가 관건이 되는 시대가 곧 올지도 모르겠습니다. 하루하루가 시장에 쏟아지는 인공지능 제품을 체험해 보는데도 바쁜 시대가 와 버린 것 같습니다.

반응형

댓글