ChatGPT가 출시된 지 4개월이 지난 지금, 지금 인터넷에서는 ChatGPT로 열광을 하고 있는데요.
ChatGPT를 인수한 Microsoft사에서 이번에는 ChatGPT로 이미지를 생성할 수 있는 Visual ChatGPT를 공개하여 이를 소개해 드립니다.
아래는 Mircosft에서 공개한 문서에서 아키텍처 부분을 발췌한 것입니다.
1. Visual ChatGPT 아키텍처
Visual ChatGPT의 주요 아키텍처는 아래와 같습니다.
1.1. 각 모델 별 설명
- User Query: 사용자가 채팅으로 입력한 데이터
- Visual Foundation Models: 이미지 생성 AI 모델의 집합군입니다. 너무 잘 알려진 Stable Diffusion과 함께 BLIP, Pix2Pix, ControlNet, Detection 등등 이미지 생성에 관련된 여러 모델이 있습니다.
- Prompt Manager: 사용자와 Visual Foundation Models, ChatGPT, 생성된 이미지를 연결하는 주용한 부분 담당
- Iterative Reasoning: 반복적 추론
- Outputs: 최종 결과물
1.2. 핵심 모듈: Prompt Manager
이 부분에서 핵심 요소는 "Prompt Manager"이며, 생성된 이미지가 사용자의 요구조건과 매칭이 되는지 Visual Foundation Models에서 이미지를 생성하고, 텍스트를 추출하여 매칭 작업을 하여, 사용자의 요구조건에 맞을 때까지 반복시켜 주는 작업을 하는 것 같습니다.
2. ChatGPT의 미래
저번 ChatGPT-4에 시연영상에서 이미지를 입력하여 대화하는 작업이 있었는데, 이 부분도 Visual ChatGPT와 결합이 된다면, Text-to-Text를 뛰어넘어 Image-to-Text, Image-to-Image로 가는 단계가 곧 올 것 같습니다.
예를 들어, 강아지 사진을 찍었는데, 이미지를 입력하면서 텍스트로 "사진에서 강아지를 고양이로 바꿔줘"라는 문구를 해석하여 이미지로 답변을 받을 수 있을 것 같습니다.
3. Visual ChatGPT 관련 문서
Visual ChatGPT는 Microsoft사에 의해서 문서와 Github로 무료로 공개가 되어 있으니, 관심이 있으신 개발자 분들은 아래의 링크를 참고하시기 바랍니다.
- Visual ChatGPT 문서: https://arxiv.org/pdf/2303.04671.pdf
- Visual ChatGPT 깃허브: https://github.com/microsoft/visual-chatgpt
반응형
댓글