CLIP 모델

덤프버전 :


파일:OpenAI 로고.svg[[파일:OpenAI 로고 화이트.svg

[ 펼치기 · 접기 ]

||<-2><tablebgcolor=#FFFFFF,#1F2023><bgcolor=#000,#2D2F34><tablewidth=100%> 제품군 ||
||<bgcolor=#000,#2D2F34> 인공지능 ||ChatGPT · DALL·E · OpenAI(인공지능) ||
||<bgcolor=#000,#2D2F34><width=15%> 모델 ||GPT-3(GPT-3.5) · GPT-4 · GPT-5 · Codex · CLIP · Whisper ||
||<-2><bgcolor=#000,#2D2F34><width=100%> 관련 인물 ||
||<-2><width=100%> 일론 머스크(퇴사) · 샘 알트만 · 미라 무라티 · 일리야 수츠케버 · 안드레 카파시 · 그렉 브록만 ||
||<-2><bgcolor=#000,#2D2F34><width=100%> 관련 기업 ||
||<-2><width=100%> 마이크로소프트 ||



CLIP
Contrastive Language-Image Pre-training
출시일
2021년 1월 5일
제작사
OpenAI
라이선스
MIT 라이선스
관련 링크
파일:홈페이지 아이콘.svg | 파일:GitHub 아이콘.svg[[파일:GitHub 아이콘 화이트.svg


1. 개요
2. 상세
3. 응용
4. 같이 읽기



Contrastive Language-Image Pre-training model, CLIP model

1. 개요[편집]


OpenAI에서 개발한 신경망 아키텍처로, 자연어를 이해하고 Computer Vision을 구현하는 등 인간의 언어/이미지를 컴퓨터로 처리할 수 있게끔 해주는 모델이다.


2. 상세[편집]


CLIP 모델은 ViT(Vision Transformer)와 Transformer 언어 모델(Transformer-based language model)을 결합하여 이미지와 텍스트를 모두 처리할 수 있게 만들어놓은 모델이다. 여기서 ViT란 비지도학습을 통해 이미지에서 특징을 추출할 수 있도록 만들어진 CNN 모델이며, Transformer 언어 모델은 사전훈련(pre-trained)을 통해 텍스트 데이터를 학습해놓은 모델이다.

CLIP 모델에 자연어를 입력할 경우 이를 임베딩으로 변환하여 77 x 768 숫자 값 목록이 생성되며, 이 임베딩의 숫자값을 바탕으로 이미지 처리가 가능한 것이다.

CLIP 모델은 2022년부터 우후죽순으로 개발된 AI 그림의 기반이 모두 여기에 있다 해도 전혀 과장이 아닐 정도로 AI 개발에 있어 강력한 도구 중 하나이다. 이를 통해 텍스트 및 이미지와 같은 복잡한 데이터를 처리하고, 컴퓨터가 이해하는 방식이 혁신적으로 개선되었기 때문.


3. 응용[편집]


  • AI 그림의 선두주자격인 OpenAI의 DALL·E가 이 CLIP 모델을 이용하여 만든 도구이다.


4. 같이 읽기[편집]




파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-12-29 13:51:00에 나무위키 CLIP 모델 문서에서 가져왔습니다.