트랜스포머(인공신경망)

덤프버전 :

1. 개요
2. 구조
3. 작동 원리
4. 파급력
4.1. 트랜스포머를 기반으로 한 프로젝트
4.2. 트랜스포머를 기반으로 한 모델
5. 비판 및 논란
6. 연관 문서


1. 개요[편집]


2017년 NIPS에서 'Attention Is All You Need'라는 논문을 통해 발표되었다. 병렬처리가 어려워 연산속도가 느리던 RNN의 한계를 극복함에 따라 자연 언어 처리 분야에서 상당한 수준의 퍼포먼스를 보여주었다.

처음에는 자연어 처리 분야에서만 사용되었으나 이미지 분류 등 컴퓨터 비전분야에까지 손을 뻗쳤으며 현재는 아주 다양한 분야에서 활약하고 있다.

트랜스포머의 등장 이전에는 LSTM이나 GRU같은 RNN 알고리즘이 가장 최신의 딥러닝 알고리즘이었다.

BERT, GPT-3, AlphaFold 2 등이 Transformer 알고리즘을 기반으로 만들어졌다.


2. 구조[편집]


파일:transformer_ANN_model_structure.png

트랜스포머의 구조는 크게 위치 인코딩, 멀티헤드 어텐션, FFN으로 이루어져있다.

위치 인코딩으로 위치 정보를 파악해서 멀티헤드 어텐션으로 집중을 하고, 그 결과를 FFN으로 학습하는 구조를 가지고 있다.

3. 작동 원리[편집]


파일:나무위키상세내용.png   자세한 내용은 어텐션 신경망 문서를 참고하십시오.


4. 파급력[편집]


트랜스포머 모델 Inference 전용 비즈니스인 Hugging Face가 생길 정도로 큰 파급력을 미쳤다.

관련 업계 및 커뮤니티에서는 '일단 트랜스포머를 박으면 성능이 올라간다'는 말이 공연히 돌 정도로 인공지능계의 무안단물 취급을 받으며 승승장구하고있다.


4.1. 트랜스포머를 기반으로 한 프로젝트[편집]


  • 알파폴드 2
  • 로제타 폴드
  • 알파스타
  • 구글 번역기(BERT)

4.2. 트랜스포머를 기반으로 한 모델[편집]


  • DeiT (Data-efficient image Transformers)
  • ViT (Vision Transformer)
  • BERT (Bidirectional Encoder Representations from Transformers)

5. 비판 및 논란[편집]


기업과 연구기관별로 트랜스포머를 활용하는 방식이 제 각각이며 2020년대에 들어서는 그 방식에 한계에 도달했다는 의견이 존재한다. 예시로 GPT-4의 상세 정보가 외부에 공개되진 않았지만, ChatGPT의 기반인 GPT-3.5매개변수 차이가 월등하게 나는데도 그것에 비례적인 성능 향상이 체감되지 않았다. 또한 모델의 성능을 비교하는 것 조차 여전히 Elo 레이팅으로 진행한다는 것 또한 비판 받는 부분이다.

파일:93F3F2AC-4342-4680-8451-382C76BE1A6A.jpg
파일:2444C182-DCAF-4ABA-8CA8-ADE785914370.jpg

조지 호츠라는 해커의 주장에 따르면 2,200억 개의 파라미터를 분야별로 8개의 모델에 나누어 훈련시키고 게이트를 통해 가중치를 조정하는 방식의 MoE(Mixture of Experts)라는 구조로 파라미터가 1조 개인 척 트릭을 썼다고 주장한다. 그의 말이 사실이라면, GPT-3와 GPT-4의 차이는 파라미터 개수가 아니라 MoE 구조의 유무 차이므로 트랜스포머 방식의 한계가 점차 드러나는 상황이라는 것을 유추해 볼 수 있다.#

실제로 2023년 7월부터 제기된 ChatGPT의 성능 저하가 MoE 구조로 인해 벌어진 게 아니냐는 의견이 나타나기 시작했다.#


6. 연관 문서[편집]


Attention Is All You Need
디시 특온갤 - 노베를 위한 트랜스포머

파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-12-23 01:13:13에 나무위키 트랜스포머(인공신경망) 문서에서 가져왔습니다.