대화형 음성 인공지능

덤프버전 : (♥ 0)


1. 개요
2. 구성 요소
2.1. 음성 인식
2.3. 대화 관리
2.4. 자연어 생성
3. 관련 문서


1. 개요[편집]


Conversational Voice AI.

사람과 자연스럽게 대화할 수 있도록 설계된 대화형 인공지능 시스템이다. 이 시스템은 음성 인식을 통해 사용자의 말을 이해하고, 자연어 처리 기술을 사용해 그 의미를 해석한 후, 적절한 응답을 음성으로 제공하는 방식으로 작동한다.


2. 구성 요소[편집]



2.1. 음성 인식[편집]


ASR, Automatic Speech Recognition.

컴퓨터가 음성 언어를 이해하도록 만드는 기술. 대표적인 예로 Siri.

음성 인식 분야에서 Speech Recognition과 Speech-to-text (STT)는 살짝 구분되는데, Speech Recognition이 컴퓨터가 인간의 음성 언어를 이해하는 것까지 목표로 삼는다면, STT는 인간의 음성 언어를 문자 언어로 변환시키는 것 만을 목표로 삼는다. 즉, Siri가 Speech Recognition 시스템이라면, 청각 장애인을 위하여 소리를 글자로 화면에 표시해주는 기술은 STT.

  • 유명한 오류
음성It's hard to recognize speech.
STTIt's hard to wreck a nice beach.


2.2. 자연어 처리[편집]


NLP, Natural Language Processing

텍스트로 변환된 사용자의 말을 분석하고 이해한다.


2.3. 대화 관리[편집]


Dialog Management

대화의 맥락을 유지하고 적절한 응답을 생성한다.


2.4. 자연어 생성[편집]


NLG, Natural Language Generation

응답할 내용을 텍스트로 작성한다.


2.5. 음성 합성[편집]


TTS, Text to Speech

생성된 텍스트 응답을 다시 음성으로 변환한다.


3. 관련 문서[편집]


파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 2024-06-02 02:20:02에 나무위키 대화형 음성 인공지능 문서에서 가져왔습니다.