Whisper(AI)

덤프버전 :


파일:OpenAI 로고.svg[[파일:OpenAI 로고 화이트.svg

[ 펼치기 · 접기 ]

||<-2><tablebgcolor=#FFFFFF,#1F2023><bgcolor=#000,#2D2F34><tablewidth=100%> 제품군 ||
||<bgcolor=#000,#2D2F34> 인공지능 ||ChatGPT · DALL·E · OpenAI(인공지능) ||
||<bgcolor=#000,#2D2F34><width=15%> 모델 ||GPT-3(GPT-3.5) · GPT-4 · GPT-5 · Codex · CLIP · Whisper ||
||<-2><bgcolor=#000,#2D2F34><width=100%> 관련 인물 ||
||<-2><width=100%> 일론 머스크(퇴사) · 샘 알트만 · 미라 무라티 · 일리야 수츠케버 · 안드레 카파시 · 그렉 브록만 ||
||<-2><bgcolor=#000,#2D2F34><width=100%> 관련 기업 ||
||<-2><width=100%> 마이크로소프트 ||



위스퍼
Whisper
출시일
2022년 9월
제작사
OpenAI
라이선스
MIT 라이선스
관련 링크
파일:홈페이지 아이콘.svg | 파일:GitHub 아이콘.svg[[파일:GitHub 아이콘 화이트.svg


1. 개요
2. 상세
3. 여담




1. 개요[편집]


OpenAI에서 개발한 자동 음성 인식(Automatic Speech Recognition, ASR) 모델이다. 2022년 9월오픈 소스로 공개했으며, 2022년 12월에는 기존 large 모델에서 더욱 개선된 large-v2 모델을 출시했다.

Whisper는 680,000시간 분량의 다국어 및 다목적 감독 데이터를 학습했다. ChatGPT iOS 앱의 음성 인식 기능이 위스퍼 모델을 기반으로 만들어진 것이다.


2. 상세[편집]


모델의 크기에 따라 여러 모델이 존재하며, 영어만 처리할 수 있는 모델과 여러 언어를 처리할 수 있는 다국어 모델로 구분된다.
크기
매개변수
영어 전용 모델
다국어 모델
tiny
39 M


base
74 M


small
244 M


medium
769 M


large
1550 M



오픈 소스로 공개되었기 때문에 Whisper를 Python으로 설치하여 사용할 수 있다.[1] 별도로 OpenAI에서 제공하는 API를 통해, large-v2 모델을 분당 $0.006[2]에 사용할 수도 있다.

한국어는 단어 오류율(WER)[3] 통계를 기준으로 27위에 해당한다.# 그럼에도, 한국어를 인식하는 성능이 꽤 뛰어나다.


3. 여담[편집]


  • OpenAI와 제휴한 스픽이 Whisper API를 사용하고, 대표 사용 사례로 소개되었다.#
  • ChatGPT 공식 앱의 음성 인식에서 Whisper가 사용되고 있다.


파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-11-23 03:28:14에 나무위키 Whisper(AI) 문서에서 가져왔습니다.

[1] Python 3.9.9 및 PyTorch 1.10.1 버전으로 모델을 학습하고 테스트했다고 한다. 코드 베이스는 Python 3.8-3.11, 최신 버전 PyTorch와 호환된다.[2] 한화로 약 8원.[3] Word Error Rate, 대부분 음성 인식 인공지능의 성능을 계산할 때 사용되는 측정 지표. 퍼센트가 낮을수록 성능이 좋다.