Text to Speech

분류

음성 합성 엔진

1. 개요

2. 특징

3. 종류 및 사이트

3.1. 국내

3.2. 해외

4. 사용 사례

1 . 개요[편집]

줄임말로는 TTS, 한국어로는 '음성합성(音聲合成)'이라 부른다. 보통 TTS라고 하면 이것을 의미한다. 컴퓨터의 프로그램을 통해 사람의 목소리를 구현해내는 것으로, 성우 없이도 거의 모든 단어와 문장의 음성을 쉽게 구할 수 있다. 하지만 사전녹음된 목소리 자료를 기반으로 쓰는 만큼 억양이 자연스럽지 못하다는 단점이 있다.

시각장애인의 접근성을 향상시키기 위해 개발되었다. 기사

한국의 대표적 TTS 프로그램 업체로는 위메이크보이스, 타입캐스트, 프로소디, 셀바스AI, 비디오스튜, 온에어스튜디오, AISTUDIOS, 네이버 클로바 더빙)과 보이스웨어가 있다. 보이스웨어는 한국 내에서는 거의 상표의 보통명사화 수준이지만 올바른 용어는 TTS이다.

해외에서는 리드스피커와 브라우저어라우드와 같이 웹기반 서비스 솔루션이 웹사이트를 읽어주는 TTS 프로그램으로 대중화되었다. 일본에서는 지방자치단체 홈페이지의 70% 이상이 TTS 음성서비스를 제공한다. 한국에선 다양한 TTS 프로그램 제공업체 중 웹톡스, 보이스몬과 같이 웹기반 서비스와 솔루션을 함께하는 프로그램들이 각광받는다.

보컬로이드와 비슷하다고 생각할 수 있다. 하지만 보컬로이드는 소리, 억양 하나하나를 유저가 직접 만들므로 복잡하지만,[1] TTS는 글자를 입력하면 쉽게 바로 음성으로 출력된다는 차이점이 있다. 물론 그만큼 TTS는 발음과 억양이 부자연스럽다는 단점도 있다.

하지만 몇몇 TTS는 꽤나 자연스럽고 부드럽게 목소리를 출력한다. 알파고를 발표한 구글 딥마인드 산하의 WaveNet(웨이브넷)은 딥러닝 기반의 TTS 시스템으로, 연구를 거듭한 결과 성우가 직접 읽은 문장보다도 더욱 자연스러운 문장을 구사할 수 있게 되었다고 한다. 실제로 목소리를 비교해보면 어느 것이 성우의 목소리이고, 어느 것이 TTS인지 구별할 수 없을 정도이다. 심지어 별다른 입력 없이 무작위한 발음을 중얼거리게 만들 수도 있는데, 분명 이해할 수 없는 문장임에도 불구하고, 실제 사람의 중얼거림처럼 호흡과 간격이 매우 자연스럽다. 기사, 기사 2

단, 대부분 TTS는 개인 고객에게 제품을 팔지 않기 때문에, 개인이 TTS를 사용하려면 어둠의 경로에서 구해야 하는 경우가 대부분이다.

TTS는 3가지 요소로 구성된다. 첫째가 SAPI라는 윈도우 구성요소, 둘째가 보이스 엔진, 셋째가 플레이어다. 비디오 플레이어에 비유하면 차례대로 SAPI는 운영체제 그 자체, 보이스 엔진은 코덱쯤, 플레이어는 말 그대로 플레이어이다. SAPI는 대체로 윈도우를 깔면 자동으로 깔려있다. 제어판을 뒤적거려본 유저라면 알 수 있는데, 제어판 → 접근성 → 접근성 센터 → 디스플레이가 없는 컴퓨터 사용에 들어가보면, 텍스트 음성 변환 이라는 항목이 있다. 이 창을 띄워보면 한 줄 문장을 작성하고 음성선택을 하는 곳이 있는데, 바로 이것이 TTS의 기본 구성원리다.

Microsoft Heami Desktop - Korean이라고 나와있을 텐데, 이것이 SAPI 5.1 버전용 보이스 엔진인 혜미다. 이 제어판 항목에서는 긴글을 입력하지 못하지만, 바로 플레이어들을 이용하여, 긴 단락들을 읽어줄 수 있는 것이다. 참고로 예시는 Windows 8.1 기준으로, Windows XP는 Microsoft Sam, Windows Vista와 Windows 7은 Microsoft Anna가 존재한다. Windows 10의 경우에는 Windows 8.1과 동일하지만, 다른 언어 입력기를 설치하면 음성 데이터와 언어팩도 같이 설치되기 때문에 쉽게 변경이 가능하다.

대부분 TTS 플레이어들 자체[2]는 프리웨어인 경우가 많고, 사실상 TTS의 핵심이라고 할 수 있는 엔진[3]이 유료로 판매되는 핵심 파일이다. 한국어 엔진 중 가장 유명한 게 Junwoo(준우)와 Yumi(유미)다. 기본으로 윈도우에 깔린 혜미 같은 엔진들은 매우 기계적이어서 많이 듣기에 부자연스럽기 때문에, 대부분 따로 엔진을 구해야 만족스러운 결과가 나온다.

플레이어로 쉽게 구할 수 있는 것은 판옵프리터(Panopreter), 발라볼카(Balabolka), 텍스트얼라우드(TextAloud) 등이 있다. 앞의 두 개는 프리웨어, 텍스트 얼라우드는 유료이다.

판옵프리터는 가장 프로그램이 가볍지만, 텍스트 분량이 너무 많으면 한꺼번에 읽을 수는 없다. 또한 중간부터 읽을 수가 없어서 항상 처음부터 읽어야 한다. 발라볼카의 장점은 자신의 PC에 깔린 엔진뿐만 아니라, 구글 번역기의 TTS엔진까지 사용해서 음성파일을 만들 수 있다는 것이다. 다만 프로그램이 무겁고, 굳이 음성파일을 만들지 않고 프로그램 내부에서 즉흥적으로 들을 경우, 문장 하나하나마다 앞부분의 음성이 약해지는 현상이 나타나 매우 듣기가 괴롭다. 마지막으로 텍스트 얼라우드는 프로그램도 무겁지 않고, 중간부터도 들을 수 있으며, 글의 맨 처음만 약해질 뿐 다른 곳은 다 그대로이다. 단점이라고는 유료라는 점뿐. 위 세 프로그램 모두 당연하게도 음성파일로 변환할 수 있다. 기본적으로 wav파일로 나오지만, 추가 설정을 통해 mp3로 바로 변환시켜줄 수도 있다.

한국어로 맞춰놓고 영어를 쓰면 콩글리시를 들어볼 수 있다. 마찬가지로 영어 이외의 언어로 설정하고 영어를 쓰면 해당 국가의 억양이 들어간 영어 음성이 나온다. TTS 프로그램 중 영어 음성 전문 더빙이 가능한 서비스는 타입캐스트이며, 이를 위한 외국인 인공지능 성우 캐릭터가 마련되어 있다.

감정과 음 높낮이, 길이도 조절하여 딥 러닝으로 합성가능한 TTS 프로그램도 나오기 시작했다. 기사

자신의 목소리로 TTS를 만들 수는 있지만 번거롭고 시간이 많이 걸리는 편이다. 링크

성우들의 일자리를 빼앗는 게 아니냐는 말이 있다. 물론 이 TTS도 무에서 시작할 수는 없으니 목소리를 제공하고 로열티를 받을 수는 있다. 하지만 해당 IT 회사가 성우에게 음성 저작권 영구 양도를 요구하는 문제도 있다. 기사

AISTUDIOS는 2021년 CES 2021에서 혁신상을 받았다.

일본에서는 니코니코동화를 시작으로 TTS 실황 플레이가 유행하고 있다.

2018년에는 TTS로 성대모사까지 한다. 기사. 그 후 유튜브에서도 유명 유튜버의 목소리로 AI를 학습시켜 TTS로 변환한 패러디 영상이 가끔 올라온다. 예시.

3 . 종류 및 사이트[편집]

자세한 내용은 문서를 참고하십시오.

3.1 . 국내[편집]

네오사피엔스
- 타입캐스트
딥브레인AI: SaaS 기반의 TTS, TTV(Text to Video) 서비스를 제공한다.
- AISTUDIOS
리드스피커코리아(구 보이스웨어)
보이스몬: 노인, 저시력시각장애인, 인지장애인 등을 위해 웹사이트를 TTS를 이용해 읽어주는 스크린 리더 기능과 고대비 색상반전 기능, 텍스트/화면 확대 기능, 하이라이트 기능 등을 갖춘 웹 접근성 서비스를 겸하는 TTS 프로그램이다.
삼성 TTS: Diotek TTS(전자사전 만드는 그 회사 맞다.)의 OEM판이다. 신분당선에서 안내방송에 사용되는 TTS도 이 회사 제품. 다만 삼성 TTS판의 상업적 사용은 금지되어 있다. 기본적으로 갤럭시 시리즈에만 탑재되는 TTS다. 그러나 그 어느 제조사도 장기적출(…)을 시도하는 사람들을 피할 수는 없다 보니, 결국 이 물건도 맛클의 한 유저에 의해 적출당해서 타사 폰으로 신나게 이식되고 있는 중이다. 심지어 루팅을 안 해도 정상적으로 설치되도록 마개조까지 가해놓았다.
셀바스AI
온에어스튜디오(OnAirStudio)PPT슬라이드나pdf 등을 업로드하고 TTS로 영상을 만들 수 있다. 라이언로켓의 서비스.
웹톡스: 온라인 기반 서버 TTS 솔루션으로 다양한 웹사이트와 모바일서비스를 간단한 코드 삽입만으로 TTS를 이용해 읽어 줄 수 있도록 해주는 TTS 프로그램 솔루션. 20개국 40개 이상의 TTS 목소리로 제공되어 다국어 서비스가 필요한 모든 영역에 도움을 제공한다.
클로바 더빙: 네이버 클로바의 TTS 서비스
휴멜로
- 프로소디(Prosody)

3.2 . 해외[편집]

A.I.VOICE
- 아나운서부: 2021년 7월 21일 유우키 카오리, 히노데 켄, 시오자키 카즈키가 13024엔에 발매함.
CeVIO(기능 중 일부)[4]
크게 '토크 보이스'와 '송 보이스'으로 나누어져있으며 그 중 '토크 보이스'가 TTS에 해당한다.
CoeFontSTUDIO
- 알리얼(Allial)[5]
  쌍둥이 언니
  &밀리얼(Millial):[6]
  쌍둥이 여동생
  [7]
  일러스트레이터 나기시로 미토
  쌍둥이 자매다 보니 코토노하 자매랑 비슷한 복장을 입은 2차 창작도 나왔다. 예시. 2차 창작과 TTS 실황 플레이에 사용가능하나 영리 이용이 금지다.[8]
  인터넷 방송에서 쌍둥이를 사용한 영상에 광고를 달거나 후원을 받는 것이 불가능하다는 것.
- 아베루니(Averuni, アベルーニ): 남캐 TTS. 차분하고 안정적인 미성이 특징. 링크
Lovo: 가입해야 한다.
FakeYou(구 VOcodes): 서브컬처 속 캐릭터와 배우의 목소리를 사용하는 TTS. 오픈 소스이기 때문에 무료이고 사람들이 자유롭게 인공지능이 학습한 목소리를 올려서 그런지 목소리 수가 많다. 링크, 링크 2, 영상
From Text to Speech: 가입해야 한다.
Lyrebird: 가입해야 한다.
Natural Reader: 더 많은 목소리를 사용하는 것은 유료이다.
Nuance
Online Tone Generator
Play.ht
Replica: 가입해야 한다.
Resemble.ai: 가입해야 한다.
Robot Voice Generator: 로봇 목소리만 가능하다.
TTS Reader
oddcast
UberDuck: FakeYou와 마찬가지로 서브컬처 속 캐릭터와 배우의 목소리를 사용한다. 무료인 대신에 가입을 해야 한다. 링크
Verbose: 호주 기업인 NCH Software에서 나온 프로그램이다. 전부 영어로 되어 있으며, Windows에서만 작동하는 데다가 유료라는 한계가 있다.
VOCALOID(보컬로이드)[9]
사실 보컬로이드를 비롯한 보컬 합성 엔진들은 일반적인 TTS라기보다는 가상 보컬 프로그램이라고 별도로 구분해서 보는게 좋다.
VoiceGenerator.io
VoiceOver
VOICEROID
VOICEVOX: 도호쿠 즌코의 즌다몬과 시코쿠 메탄을 TTS화한 곳.
15.ai: 서브컬처 속 캐릭터를 사용하는 TTS 중 특이하게도 타 TTS과 혼동되는 것을 방지하기 위해 프로젝트 하나에 타 TTS와 혼용할 수 없다는 제약이 붙어 있다. FakeYou와 UberDuck보다 음성 합성 속도와 음성 출력 품질 등이 좋은 대신 목소리 수는 적다. 링크
~~七声ニーナ(나나코에 니나)~~[10]
2022년 3월 31일부로 서비스 종료
구글 TTS(모바일)
마이크로소프트 Azure
소프토크
아카펠라 그룹

4 . 사용 사례[편집]

콜센터의 안내음성
기상청 일기예보 안내(ARS)서비스(131)
횡단보도의 안내음성(잠시만 기다려 주십시오 ~ 방향 횡단보도입니다 / 녹색불이 켜졌습니다 건너가도 좋습니다 / 점멸신호로 바뀌었습니다 / 시간이 부족하오니 다음 신호를 기다려 주십시오 하는 그것)
각 포털 사이트의 번역기
TMAP을 포함한 대다수 내비게이션 [11]
간혹 독특한 음성을 위해 사전 녹음된 것을 사용하기도 하나 이경우에도 교차로 이름 등은 TTS로 처리한다.
대부분의 지방 시내버스 안내방송: 삼원FA(마이비)를 쓰는 곳은 유미나 혜련을 주로 사용하며(어떤 곳은 유미와 혜련을 혼용해서 사용한다.), 그 외 지역은 셀바스TTS를 사용하는 것 같다.
한국철도공사 기차역의 KOBOS 시스템에 사용된다. 대표적인 예로 열차 도착 안내 방송이 있다.
한국철도공사 누리로, 무궁화호 열차의 서원주역, 북울산역, 신경주역 도착 시 차내 자동방송
한국철도공사 소속 광역전철 안내방송
신분당선, 부산김해경전철 안내방송
Siri: 애플 특성상 상술한 보이스오버 기반이다.
KBS 2FM 라디오 방송의 DJ 윌슨.
동아일보: 뉴스를 한국어/영어/일본어/중국어로 읽어 준다.
코리아타임즈: 영어 뉴스를 웹과 모바일앱에서 읽어 준다.
한때 미디어 다음에서 손석희의 목소리로 댓글을 읽어주는 서비스를 제공했다. 별도의 녹음 과정을 거치지 않고 뉴스룸 영상 1년분을 이용해 데이터를 추출한 것이 특징으로 상당히 자연스러운 음성을 제공했다.
난수방송: 대한민국의 난수방송과 북한의 난수방송 등. 보안상의 이유로 성우를 잘 쓰지 않는다.
트위치, 아프리카TV 등 인터넷 방송 플랫폼에서 사용되는 음성 도네이션: 후원을 하면 후원자의 인사말을 읽어주는 바로 그 목소리. 트윕이나 투네이션 모두 구글 TTS에서 제공하는 목소리밖에 없었지만 리드스피커코리아(구 보이스웨어), 타입캐스트 등 다른 TTS와도 이용계약을 맺으면서 리드스피커코리아의 씩씩한강모(재민이), 타입캐스트의 찬구 등 다양한 목소리를 쓸 수 있게 되었다. 아프리카TV에선 도네이션이란 표현보단 주로 전자녀, 전자계집이라 불린다. 스트리머들도 목 상태가 안 좋을 때 방송진행 음성으로 사용하는데 이와 같은 약빤 편집 영상이 나오기도 한다. 영상, 영상 2, 영상 3
그 외 다양한 음성 인식 비서 앱들
스티븐 호킹의 목소리: 루게릭병과 폐렴의 합병증으로 인해 기관지 절개 수술과 목에 플라스틱 호흡 장치를 삽입해서 자기 스스로의 목소리를 내지 못하기 때문에 인텔의 후원을 받아 대신 사용했다. 다만 본인은 TTS가 미국 영어밖에 지원하지 못해서 자신의 용인발음을 사용하지 못하는 게 맘에 들지 않는다고 했다.
가면라이더 제로원: 변신 시퀸스 마지막에 나오는 영어 음성으로 TTS를 사용했다. 링크
병신TV: 대부분 흔히 재민이라 부르는 리드스피커코리아(보이스웨어)의 씩씩한강모 음성으로 대사를 처리한다.
도네이크: Twip과 마찬가지로 후원 할 때 입력한 문구를 TTS가 읽어준다. 이쪽은 HTML5의 내장 TTS를 사용한다.
동물의 숲 시리즈: 게임 내에 등장하는 동물주민들의 목소리를 만드는 데 사용된다. TTS를 그대로 쓰지는 않고 화면에 표시될 대사를 철자단위로 약간씩 변형한 텍스트를 TTS가 읽게 하고 이를 변조해서 빠르게 재생한다.
Geno's Forest: XBrav가 슈퍼 마리오 RPG 꽃충이 숲 음악에 가사를 붙였다.
한때 디시 합필갤에선 이호성의 목소리를 내기 위해 당시 보이스웨어 준우 목소리를 느리게 변조해 사용하기도 했다.[12]
물론 실제 이호성의 목소리와는 무관하다.
일본 방재행정무선 설비 상당수: 방재행정무선 설비들이 디지털 설비로 갱신하면서 TTS 기능이 추가되었으며 사람이 직접 방송하거나 녹음하지 않아도 관련 프로그램에 안내방송 내용을 입력하면 TTS로 방송이 가능하다.
스크린 리더

이 문서의 내용 중 전체 또는 일부는 2022-07-10 16:15:18에 나무위키 Text to Speech 문서에서 가져왔습니다.

이 문서의 내용 중 전체 또는 일부는 2023-11-04 03:12:12에 나무위키 Text to Speech 문서에서 가져왔습니다.

[1] 보컬로이드의 경우는 가상의 목소리로 노래를 부르게 만드는 물건이라 음계와 박자까지 마음대로 맞춰야해서 복잡할 수밖에 없다. 일반적인 글자 낭독은 이렇게까지 할 필요가 없다는 차이점이 있어서 보컬로이드는 TTS와 별개로 보는 시각이 대부분이다.[2] 용량이 30MB 정도이다.[3] 용량이 200~500MB정도이다[4] 크게 '토크 보이스'와 '송 보이스'으로 나누어져있으며 그 중 '토크 보이스'가 TTS에 해당한다. [5] 쌍둥이 언니[6] 쌍둥이 여동생[7] 일러스트레이터 나기시로 미토[8] 인터넷 방송에서 쌍둥이를 사용한 영상에 광고를 달거나 후원을 받는 것이 불가능하다는 것.[9] 사실 보컬로이드를 비롯한 보컬 합성 엔진들은 일반적인 TTS라기보다는 가상 보컬 프로그램이라고 별도로 구분해서 보는게 좋다.[10] 2022년 3월 31일부로 서비스 종료[11] 간혹 독특한 음성을 위해 사전 녹음된 것을 사용하기도 하나 이경우에도 교차로 이름 등은 TTS로 처리한다.[12] 물론 실제 이호성의 목소리와는 무관하다.

Text to Speech

분류

1 . 개요[편집]

2 . 특징[편집]

3 . 종류 및 사이트[편집]

3.1 . 국내[편집]

3.2 . 해외[편집]

4 . 사용 사례[편집]

관련 문서

Text to Speech

분류

1. 개요[편집]

2. 특징[편집]

3. 종류 및 사이트[편집]

3.1. 국내[편집]

3.2. 해외[편집]

4. 사용 사례[편집]

관련 문서

1 . 개요[편집]

2 . 특징[편집]

3 . 종류 및 사이트[편집]

3.1 . 국내[편집]

3.2 . 해외[편집]

4 . 사용 사례[편집]