언어 모델

분류

1. 개요

2. 구조

3. 개발 방식

3.1. 폐쇄형 vs 오픈소스

3.2. 데이터셋 vs 아키텍처

4. 경쟁력

4.1. 유니콘 기업

5. 주요 언어모델

6. 논란 및 비판

1 . 개요[편집]

언어 모델(LM, Language Model)은 입력값(자연어, 보통은 사용자의 문장)을 기반으로 통계학적으로 가장 적절한 출력값을 출력하도록 학습된 모델이다.[1] 상위 개념은 자연 언어 처리이다.

크게 통계학 기반과 인공신경망 기반으로 나눠 볼 수 있다. 현 시점에서는 후자가 더 대중적으로 쓰인다. 인공신경망 중에서도 비지도학습 [2] 방식의 트랜스포머 아키텍처를 기반으로 알고리즘이 구현되어 있다.

텍스트(자연어), 이미지(2차원), 포인트 클라우드(3차원), 오디오 등 여러 포맷의 대규모 데이터셋을 모아서 토큰화시키고 멀티모달을 구축하여 학습시키면, 파운데이션 모델이 구축된다. 이후 분야별로 별도의 파인튜닝을 거친 뒤 프롬프트를 입력하면 추론을 통해 여러 종류의 출력을 지원하는 생성형 인공지능 서비스를 만들 수 있게 된다. 모델 개발사는 본인이 서비스를 직접 구축하는 방법 외에도 서드파티 개발사에 API를 지원하여 수익을 창출할 수 있다.[3]

2023년 ChatGPT의 성공으로 인하여 큰 인기를 얻은 바 있으며, 산업계 뿐만 아니라 학계에서도 가장 화두가 되어 매일 팔로업하기 힘들 정도로 수 많은 논문들이 쏟아져 나오고 있는 분야이다.

3 . 개발 방식[편집]

3.1 . 폐쇄형 vs 오픈소스[편집]

구글과 OpenAI가 연구 목적 외의 기반 기술을 공개하지 않는 폐쇄형 노선을 선택하며 업계를 선두하고 있는 반면, 비교적 후발 주자라고 평가받는 메타는 오픈소스로 기반 기술을 공개하여 Vicuna, Alpaca 등 여러 파생형 모델들의 출시를 간접적으로 도왔다. 심지어 LLaMA-2는 상업용으로도 사용 가능한 라이선스일 정도로 이례적이라 큰 이목을 끌었다.[4] 또한 데이터브릭스가 인수한 모자이크ML은 단돈 25만 달러에 데이터를 외부에 보내지 않고 구축 가능한 기업용 언어모델을 위주로 보안성을 홍보하고 있다. 해당 산업에는 수요만큼 전문 인력의 공급이 많지 않은 탓에, 인재 영입에는 폐쇄형이 유리하고 생태계 확장에는 오픈형이 유리하다는 장단점이 있다.

한편 Apple도 JAX를 개량한 AJAX 프레임워크를 통하여 개별 노드들이 사용하기에 적합한 작은 규모의 모델인 AppleGPT를 출시할 예정이라는 소문이 돌고 있다. 이미 앞선 빅테크 기업들이 업계를 선점한 탓에, 진입 시기가 이미 늦었다. 또한 애플은 하드웨어 매출이 주력인 기업이기 때문에, 뉴럴엔진을 통해 간단한 기계학습 추론이 가능한 것 처럼 모델도 개별 노드 단위로 간소화한다면 하드웨어 구매 매력도가 높아질 수 있다는 장점이 있다.

3.2 . 데이터셋 vs 아키텍처[편집]

아직까지 성숙화된 산업 분야가 아니다 보니, 효율성이 좋고 강력한 성능의 대규모 모델 구축 방법론에 있어서 데이터의 퀄리티가 중요하다는 주장와 모델 자체의 아키텍처가 중요하다는 의견이 대립하고 있는 상황이다.

앤드류 응 : 업계의 선구자 중 하나로 학계에서 가장 강력한 영향력을 미치고 있는 앤드류 응 교수는 인공지능 시스템 구축에 있어서 코드는 요리사에, 데이터는 재료에 비유하며 대부분의 성능 향상은 데이터셋에 의해서 결정되어 왔다고 주장한다. 모델 자체의 연구보다는 데이터 정리 과정에서 80% 이상이 결정된다고 한다. 일관적인 라벨링과 품질 높은 데이터 수집 등을 가장 중요한 요소로 평가했다.
얀 르쿤 : 트랜스포머 자체에 대한 한계점이 명확해지고 있다고 주장한다.[5]
조지 호츠, 무스타파 슐레이만 등 이러한 의견에 일치를 보이는 경우가 많아지고 있다.
매개변수와 토큰의 사이즈가 커지는 만큼, 모델의 퍼포먼스가 정비례하며 올라가고 있지 않는 게 사실이다.[6]
실제로 GPT-3.5를 기반으로 하는 ChatGPT와 GPT-4를 기반으로 하는 유료버전의 비교를 통해, 더 이상 사이즈에 비례하여 퍼포먼스가 향상되지 않는다는 것을 체감해볼 수 있다. 또한 사이즈가 훨씬 작은 타 생성형 서비스들도 ChatGPT에 크게 뒤지지 않는 퍼포먼스를 보여주고 있다
조지 호츠 : 상술한 르쿤과 마찬가지로 트랜스포머 빙법론 자체가 한계점에 봉착했다고 주장한다. GPT-4에 대해, GPT-3와 매개변수 수준은 비슷하지만 MoE 방식을 통해 차별점을 주었다고 주장한다. 즉, 아키텍처의 구조론이 중요하다고 하는 격이다. 또한 이 인물은 인공지능 칩의 수준은 괜찮으나, 소프트웨어가 끔찍해서 현존하는 아키텍처들의 현주소가 엉망이라고 언급했다.
안드레 카파시 : 데이터셋의 효율성을 입이 닳도록 중시한다. 일례로 테슬라 오토파일럿 개발 과정에서 카메라를 통해 수집되는 2차원 이미지 외에 다른 포맷들을 전부 제외시켰다. 3차원 데이터인 초음파센서, 라이다, 레이더 등 불필요하다고 생각되는 센서를 제거하여 극한의 포맷 단순화를 실현시킨 것이다. 또한 같은 타입의 센서여도 센서의 버전과 제조사별 규격이 전부 상이하여 데이터 생성 패턴이 전부 제 각각이라서 노이즈와 엔트로피가 껴서 데이터 관리가 힘들어진다고 주장한다.
일론 머스크 : 카파시의 성향에 큰 영향을 미친 인물이다. 테슬라 외에도 그가 새로 시작한 스타트업인 xAI를 통해서 확인이 가능한데, 공동 창업자들 대부분이 커리어 내내 어떻게 하면 대규모 신경망을 간단하고 효율적으로 짤 수 있을 지에 대하여 고민해온 사람들이다. 분산 신경망, 저전력 스케일링 등을 시도해왔다. 또한 X Corp.는 트위터 코드의 간소화를 시도하고 있으며, 이를 통해 전처리 과정이 간단한 형태의 데이터 생성을 꿈꾼다. 본인이 인수하기 이전의 트위터와 인스타그램 등을 콕 찝으며 편향된 데이터로 짜여진 알고리즘을 통해 생성된 서비스가 생성하는 편향된 정보와 가짜 정보를 비판하며 향후 본인이 출시할 TruthGPT 도입의 시급성을 강조하기도 한다. 이걸 방지하기 위해 커뮤니티 노트와 유로 인증계정으로 트위터에 스팸봇을 퇴치하고 얻은 정확하고 중립적인 데이터로 자사 모델 학습에 쓸 것으로 보인다.

4 . 경쟁력[편집]

파일:B6471631-FAB3-485E-8506-83441FDB5FFC.jpg

2022년까지는 미국 등 압도적으로 영어를 기반으로 학습한 모델들 위주였으나, 2023년 들어서 ChatGPT의 iOS 앱이 다개국어로 런칭되고 Bard 역시 영어 외에 일본어와 한국어를 우선적으로 런칭하는 등 비영어권을 대상으로 한 경쟁이 매우 거세지고 있다. 중국에서는 바이두, 한국에서는 네이버 등이 자체적 언어모델을 준비 중에 있다. 특히 중국은 다른 국가와 달리, 당국 주도 펀딩을 통해 산학연의 연구가 수직화되는 케이스가 대부분이기 때문에 개발 속도에 큰 진전을 보이고 있다. 또한 인구도 많은데다 서방과 달리 사생활 침해, 데이터 프라이버시 등에 대한 반발이 적은 편이라 퀄리티 높은 데이터 수집에 유리한 편이다.

API와 플러그인을 통한 생태계 형성과 유료판매, 자체 소프트웨어 출시 등 아직까지 시장이 초창기인데도 수익화와 생태계 확장 가능성이 무궁무진하여 여러 업체들이 뛰어 들고 있다.

4.1 . 유니콘 기업[편집]

파일:292F9E1F-F6E5-441A-A6AB-F90E1A741184.webp

인공지능 유니콘 기업 목록 [7]

사명	기업 가치(USD)	비고
OpenAI	290억	[8] 대화형 인공지능 플랫폼.
Anthropic	45억	[9] 대화형 인공지능 플랫폼.
HuggingFace	45억	[10] 머신러닝 라이브러리 플랫폼.
Inflection AI	40억	[11] 대화형 인공지능 플랫폼.
Cohere	22억	[12] 대화형 인공지능 플랫폼.
Lightricks	18억	[13] 인공지능 기반 영상 및 사진 편집 플랫폼.
Runway ML	15억	[14] 인공지능 기반 영상 생성 플랫폼.
Jasper AI	15억	[15] 인공지능 작가.
Replit AI	12억	[16] 프로그래밍 협업 플랫폼.
Adept AI	10억	[17] 언어모델 API 제공 업체.
Character.AI	10억	[18] 버추얼 챗봇 플랫폼.
Stability AI	10억	[19] 그림 인공지능 플랫폼.
Glean	10억	[20] 연구용 리서치 플랫폼.
Synthesia AI	10억	[21] 텍스트 투 이미지/비디오 플랫폼.
Typeface AI	10억	[22] 어도비 직원들이 설립한 컨텐츠 생성 솔루션 업체.

5 . 주요 언어모델[편집]

OpenAI
- GPT-2
- GPT-3
- GPT-4
구글
- BERT
- ALBERT
- LaMDA-1
- LaMDA-2
- PaLM-2
메타
- RoBERTa
- LLaMA-1
  - Alpaca (스탠퍼드 대학교)
  - Vicuna (UC 버클리)
- LLaMA-2
코히어
아마존
- Titan[23]
  2023년 4월부터 아마존 웹 서비스를 통해 제공하고 있다.
모자이크ML
- MPT-7B[24]
  단돈 25만 달러로 기업별 맞춤 LLM 구축이 가능하다고 한다. 또한 사내 데이터를 외부에 공개하지 않고 자체적으로 구축하는 방식이라 보안성이 강하다.
- MPT-30B
팔란티어 테크놀로지스
- AIP[25]
  기업 맞춤 프라이빗 플랫폼이다.
X.AI
- TruthGPT[출시예정]
Inflection AI
- Inflection-1
Anthropic
- Claude-2
- Claude Instant
Apple
- Ajax
네이버
- HyperCLOVA X
알리바바
- Qwen-VL

6 . 논란 및 비판[편집]

ChatGPT의 대성공 이후, 데이터 크롤링 및 스크래핑 등으로 인한 문제점들이 수면 위로 떠오르기 시작했다. 삼성전자 등 여러 기업들은 자사 직원들이 외부 생성형 인공지능에 자사 기밀 사항을 프롬프트에 입력하는 행위를 자제시키고 있다. 또한 클라우드 컴퓨팅 빅3 업체[26]
AWS, Azure, GCP.
전부 언어모델과 생성형 인공지능을 자체적으로 구축하고 있는 상황이기 때문에 클라우드 보안에 대한 우려가 극심해고 있다.[27]
2010년대 들어서는 대부분의 기업들이 온프레미스 외에 클라우드 서비스를 병행하거나 클라우드만 사용하는 등 사용량이 급증하고 있는데, 이들 3사가 데이터를 영리적으로 활용할 것이라는 불안 요소가 깔려있는 것이다.
이러한 상황에서 대안책으로 모자이크ML와 팔란티어 테크놀로지스처럼 개별 기업의 인트라넷 데이터 전용 언어모델 구축을 도우며 발전하고 있는 니치 기업들의 수요가 증가하고 있다.
- 또한 2023년 7월 트위터 API 사용 제한 사태로 인해 트위터 앱이 먹통이 되는 사태가 발생했는데, 일론 머스크는 사태의 원인을 지나친 수준의 데이터 크롤링이라고 규정지으며 날선 비판을 하고 있다. 트위터가 이에 대한 대책으로 로그인을 필수 사항으로 넣고, 유저 당 게시글 조회 상한선을 조정하자 ChatGPT의 웹브라우징 기능에서 트위터 관련 URL 답변이 불가능해졌고, 얼마 가지 않아 웹브라우징 기능 자체가 먹통이 되었다. 이후 스레드 등 여러 소셜 미디어 업체들이 트위터의 전철을 따르면서, 이러한 플랫폼이 없는 사업자들은 데이터를 확보하기 어려워지고 있는 추세이다. 따라서 향후 자체적으로 데이터의 생성과 평가까지 가능하도록 짜여진 모델 구축이 중요해질 전망이다. 상술한대로 플랫폼 업체들은 스크래핑과 크롤링 방어에 대대적으로 들어갔고, 데이터의 양적인 면에서도 한계에 거의 직면했기 때문이다.

언어 모델 생성에 학습된 데이터들의 출처에 대해서도 문제가 제기되며, 대부분의 기업들은 알고리즘을 외부에 공개하지 않을 뿐더러 은닉층이 너무 복잡해서 자사 직원들도 인과관계 형성 과정을 질서정연하게 설명할 수가 없다. 따라서 이를 통한 영리활동의 정당성과 생성형 인공지능에 프롬프트를 입력하여 출력받는 답변의 윤리성과 편향성 등에 대한 의심이 커지고 있다.

이 문서의 내용 중 전체 또는 일부는 2023-11-25 19:41:02에 나무위키 언어 모델 문서에서 가져왔습니다.

[1] 규모가 더욱 커다란 언어모델(LM)을 LLM(Large Language Models)이라고 부른다. 매개변수 규모가 막대한, 후술할 모델들이 이에 해당.[2] 언어학적으로 매우 연관이 깊기 때문에, 모델 학습할 때도 국어 문제 풀 때 같이 문장의 빈칸 채우기, 앞뒤 문장 연관성 등등 학습 기법들이 채용됐다.[3] 예를 들어서 OpenAI는 GPT-4를 일부 파트너들에 한정하여 독점 공급하고 있다. Quora의 Poe라는 챗봇의 유로 버전은 GPT-4를 기반으로 동작한다.[4] 파일:634CE7C6-949F-4C56-8761-96A172702207.jpg

파일:634CE7C6-949F-4C56-8761-96A172702207.jpg

[5] 조지 호츠, 무스타파 슐레이만 등 이러한 의견에 일치를 보이는 경우가 많아지고 있다.[6] 실제로 GPT-3.5를 기반으로 하는 ChatGPT와 GPT-4를 기반으로 하는 유료버전의 비교를 통해, 더 이상 사이즈에 비례하여 퍼포먼스가 향상되지 않는다는 것을 체감해볼 수 있다. 또한 사이즈가 훨씬 작은 타 생성형 서비스들도 ChatGPT에 크게 뒤지지 않는 퍼포먼스를 보여주고 있다[7] 2023년 8월 기준으로 15곳의 유니콘 기업이 존재한다.[8] 대화형 인공지능 플랫폼.[9] 대화형 인공지능 플랫폼.[10] 머신러닝 라이브러리 플랫폼.[11] 대화형 인공지능 플랫폼.[12] 대화형 인공지능 플랫폼.[13] 인공지능 기반 영상 및 사진 편집 플랫폼.[14] 인공지능 기반 영상 생성 플랫폼.[15] 인공지능 작가.[16] 프로그래밍 협업 플랫폼.[17] 언어모델 API 제공 업체.[18] 버추얼 챗봇 플랫폼.[19] 그림 인공지능 플랫폼.[20] 연구용 리서치 플랫폼.[21] 텍스트 투 이미지/비디오 플랫폼.[22] 어도비 직원들이 설립한 컨텐츠 생성 솔루션 업체.[23] 2023년 4월부터 아마존 웹 서비스를 통해 제공하고 있다.[24] 단돈 25만 달러로 기업별 맞춤 LLM 구축이 가능하다고 한다. 또한 사내 데이터를 외부에 공개하지 않고 자체적으로 구축하는 방식이라 보안성이 강하다.[25] 기업 맞춤 프라이빗 플랫폼이다.[출시예정] [26] AWS, Azure, GCP.[27] 2010년대 들어서는 대부분의 기업들이 온프레미스 외에 클라우드 서비스를 병행하거나 클라우드만 사용하는 등 사용량이 급증하고 있는데, 이들 3사가 데이터를 영리적으로 활용할 것이라는 불안 요소가 깔려있는 것이다.

언어 모델

분류

1 . 개요[편집]

2 . 구조[편집]