ChatGPT로 그림 그리기?

ChatGPT가 출시된 지 4개월이 지난 지금, 지금 인터넷에서는 ChatGPT로 열광을 하고 있는데요.

ChatGPT를 인수한 Microsoft사에서 이번에는 ChatGPT로 이미지를 생성할 수 있는 Visual ChatGPT를 공개하여 이를 소개해 드립니다.

아래는 Mircosft에서 공개한 문서에서 아키텍처 부분을 발췌한 것입니다.

1. Visual ChatGPT 아키텍처

Visual ChatGPT의 주요 아키텍처는 아래와 같습니다.

1.1. 각 모델 별 설명

User Query: 사용자가 채팅으로 입력한 데이터
Visual Foundation Models: 이미지 생성 AI 모델의 집합군입니다. 너무 잘 알려진 Stable Diffusion과 함께 BLIP, Pix2Pix, ControlNet, Detection 등등 이미지 생성에 관련된 여러 모델이 있습니다.
Prompt Manager: 사용자와 Visual Foundation Models, ChatGPT, 생성된 이미지를 연결하는 주용한 부분 담당
Iterative Reasoning: 반복적 추론
Outputs: 최종 결과물

1.2. 핵심 모듈: Prompt Manager

이 부분에서 핵심 요소는 "Prompt Manager"이며, 생성된 이미지가 사용자의 요구조건과 매칭이 되는지 Visual Foundation Models에서 이미지를 생성하고, 텍스트를 추출하여 매칭 작업을 하여, 사용자의 요구조건에 맞을 때까지 반복시켜 주는 작업을 하는 것 같습니다.

2. ChatGPT의 미래

저번 ChatGPT-4에 시연영상에서 이미지를 입력하여 대화하는 작업이 있었는데, 이 부분도 Visual ChatGPT와 결합이 된다면, Text-to-Text를 뛰어넘어 Image-to-Text, Image-to-Image로 가는 단계가 곧 올 것 같습니다.

이미지와 함께 텍스트를 입력 후 그 에 대한 답변을 받는 ChatGPT-4시연영상

ChatGPT-4 주요 변경사항

이번 포스팅에서는 ChatGPT 3.5에서 ChatGPT-4로 변경되면서 업그레이드된 사항 중 가장 중요한 부분을 설명드립니다. 입력할 수 있는 글자 수 증가 입력할 수 있는 글자 수를 3,000자에서 25,000로 늘렸

ccusean.tistory.com

예를 들어, 강아지 사진을 찍었는데, 이미지를 입력하면서 텍스트로 "사진에서 강아지를 고양이로 바꿔줘"라는 문구를 해석하여 이미지로 답변을 받을 수 있을 것 같습니다.

3. Visual ChatGPT 관련 문서

Visual ChatGPT는 Microsoft사에 의해서 문서와 Github로 무료로 공개가 되어 있으니, 관심이 있으신 개발자 분들은 아래의 링크를 참고하시기 바랍니다.

Visual ChatGPT 문서: https://arxiv.org/pdf/2303.04671.pdf
Visual ChatGPT 깃허브: https://github.com/microsoft/visual-chatgpt

GitHub - microsoft/visual-chatgpt: Official repo for the paper: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundat

Official repo for the paper: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models - GitHub - microsoft/visual-chatgpt: Official repo for the paper: Visual ChatGPT: Talking, Dr...

github.com