Attention Is All You Need

덤프버전 :


Attention Is All You Need

논문 저자
Ashish Vaswani, et al.
분야
인공신경망
발표 년도
2017
논문 링크






1. 개요
2. 초록
3. 논문이 미친 영향
3.1. 트랜스포머의 등장
3.2. 어텐션이라는 명칭의 확립
3.3. 연쇄 창업
4. 외부 링크



1. 개요[편집]


2017년 발표된 트랜스포머 구조를 처음 발표한 구글브레인 팀의 논문이다. 이 논문을 기점으로 인공지능 구현 방법론 중에서 어텐션 신경망의 입지가 크게 올라갔다.


2. 초록[편집]


지금까지의 특징을 전달하는(transduction) 모델은 주로 복잡한 순환 신경망이나 인코더-디코더같은 합성곱 신경망 방식이 우세하지만, 어텐션 신경망을 사용한 '트랜스포머'라는 간단한 모델을 제안했다. 어텐션 방식과 컨벌루션 방식의 번역 기계를 활용한 실험으로, 학습하는데 상당히 적은 시간의 요구와 병렬적이여야 한다는 조건을 두었던 반면에 상기된 모델이 질적으로 우수함을 보였다. 상기된 모델은 WMT[1] 2014 영독-번역 문제를 앙상블이 포함된 기존에 존재했던 결과보다 2 BLEU 향상시킨 28.4 BLEU를 달성했다. 영불 번역에서는, 기존 최상 모델들의 학습 비용의 작은 부분정도인, 8개의 GPU를 활용해 3일 12시간에 걸쳤던 학습을 종결한후 41.8 BLEU의 신규 모델 상태를 지정했다. 또한 한정된 학습 데이터와 넓은 규모의 학습 데이터와 함께 영어로 구성된 파싱(parsing)에 성공적으로 어텐션 방식을 적용함으로써 트랜스포머가 다른 문제들에 이를 일반화한 것을 보였다.


3. 논문이 미친 영향[편집]



3.1. 트랜스포머의 등장[편집]


파일:나무위키상세내용.png   자세한 내용은 트랜스포머(인공신경망) 문서를 참고하십시오.

트랜스포머를 탄생시켰다는 한 마디로 정리 가능하다.
트랜스포머의 등장 이후 매우 많은 인공지능 모델들이 트랜스포머를 기본 구조로 채용했다. 이에 Hugging Face라는 트랜스포머 모델 전용 비즈니스까지 만들어졌다.

로제타폴드, 구글 번역기 등 인공지능 서비스 성능의 비약적 향상도 트랜스포머 모델의 등장을 기점으로 한다. 또한 대부분의 언어모델은 해당 논문을 기반으로 하고 있다.


3.2. 어텐션이라는 명칭의 확립[편집]


곱셈적 모듈, 시그마 파이 유닛, 하이퍼 네트워크 등으로 불리던 구조를 어텐션 신경망으로 통일하게 된 계기가 되었다.


3.3. 연쇄 창업[편집]


파일:B54C60DC-A483-430B-B67E-02B060A770E2.jpg

2023년 기준으로는 공동저자 8명이 전부 구글을 퇴사한 상태이다. 이들이 퇴사 후 설립한 기업들의 도합 가치는 40억 달러를 훌쩍 넘긴다. 20억 달러를 평가 받은 코히어를 비롯해서 Essential.ai(비공개), Character.ai(10억 달러), Near Protocol(12억 달러), Inceptive Nucleics(9,000만 달러) 등을 창업했다.#


4. 외부 링크[편집]


NIPS2017
arXiv:1760.03762


파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-10-20 19:13:52에 나무위키 Attention Is All You Need 문서에서 가져왔습니다.

[1] 계산언어학회(ACL)의 연례 통계기반번역 학술 워크샵이다.