Whisper(AI)
덤프버전 :
1. 개요[편집]
OpenAI에서 개발한 자동 음성 인식(Automatic Speech Recognition, ASR) 모델이다. 2022년 9월에 오픈 소스로 공개했으며, 2022년 12월에는 기존 large 모델에서 더욱 개선된 large-v2 모델을 출시했다.
Whisper는 680,000시간 분량의 다국어 및 다목적 감독 데이터를 학습했다. ChatGPT iOS 앱의 음성 인식 기능이 위스퍼 모델을 기반으로 만들어진 것이다.
2. 상세[편집]
모델의 크기에 따라 여러 모델이 존재하며, 영어만 처리할 수 있는 모델과 여러 언어를 처리할 수 있는 다국어 모델로 구분된다.
오픈 소스로 공개되었기 때문에 Whisper를 Python으로 설치하여 사용할 수 있다.[1] 별도로 OpenAI에서 제공하는 API를 통해, large-v2 모델을 분당 $0.006[2] 에 사용할 수도 있다.
한국어는 단어 오류율(WER)[3] 통계를 기준으로 27위에 해당한다.# 그럼에도, 한국어를 인식하는 성능이 꽤 뛰어나다.
3. 여담[편집]
이 문서의 내용 중 전체 또는 일부는 2023-11-23 03:28:14에 나무위키 Whisper(AI) 문서에서 가져왔습니다.