[include(틀:논문, 제목=Attention Is All You Need, 가제=, 논문저자=Ashish Vaswani\, et al., 분야=인공신경망, 발표년도=2017, 논문링크=https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf)] [목차] [clearfix] == 개요 == 2017년 발표된 [[트랜스포머(인공신경망)|트랜스포머]] 구조를 처음 발표한 [[구글|구글브레인 팀]]의 논문이다. 이 논문을 기점으로 [[인공지능]] 구현 방법론 중에서 어텐션 신경망의 입지가 크게 올라갔다. == 초록 == 지금까지의 특징을 전달하는(transduction) [[언어모델|모델]]은 주로 복잡한 [[인공 신경망|순환 신경망]]이나 인코더-디코더같은 [[인공 신경망|합성곱 신경망]] 방식이 우세하지만, 어텐션 신경망을 사용한 '트랜스포머'라는 간단한 모델을 제안했다. 어텐션 방식과 컨벌루션 방식의 번역 기계를 활용한 실험으로, 학습하는데 상당히 적은 시간의 요구와 병렬적이여야 한다는 조건을 두었던 반면에 상기된 모델이 질적으로 우수함을 보였다. 상기된 모델은 WMT[* 계산언어학회(ACL)의 연례 통계기반번역 학술 워크샵이다. ] 2014 영독-번역 문제를 앙상블이 포함된 기존에 존재했던 결과보다 2 BLEU 향상시킨 28.4 BLEU를 달성했다. 영불 번역에서는, 기존 최상 모델들의 학습 비용의 작은 부분정도인, 8개의 [[GPU]]를 활용해 3일 12시간에 걸쳤던 학습을 종결한후 41.8 BLEU의 신규 모델 상태를 지정했다. 또한 한정된 학습 데이터와 넓은 규모의 학습 데이터와 함께 영어로 구성된 파싱(parsing)에 성공적으로 어텐션 방식을 적용함으로써 트랜스포머가 다른 문제들에 이를 일반화한 것을 보였다. == 논문이 미친 영향 == === 트랜스포머의 등장 === [include(틀:상세 내용, 문서명=트랜스포머(인공신경망), 앵커=파급력)] '''[[트랜스포머(인공신경망)|트랜스포머]]를 탄생시켰다'''는 한 마디로 정리 가능하다. 트랜스포머의 등장 이후 매우 많은 인공지능 모델들이 트랜스포머를 기본 구조로 채용했다. 이에 [[https://huggingface.co/|Hugging Face]]라는 '''트랜스포머 모델 전용 비즈니스'''까지 만들어졌다. 로제타폴드, 구글 번역기 등 인공지능 서비스 성능의 비약적 향상도 트랜스포머 모델의 등장을 기점으로 한다. 또한 대부분의 [[언어모델]]은 해당 논문을 기반으로 하고 있다. === [[어텐션 신경망|어텐션]]이라는 명칭의 확립 === 곱셈적 모듈, 시그마 파이 유닛, 하이퍼 네트워크 등으로 불리던 구조를 어텐션 신경망으로 통일하게 된 계기가 되었다. === 연쇄 창업 === [[파일:B54C60DC-A483-430B-B67E-02B060A770E2.jpg|width=100%]] 2023년 기준으로는 공동저자 8명이 전부 구글을 퇴사한 상태이다. 이들이 퇴사 후 설립한 기업들의 도합 가치는 40억 달러를 훌쩍 넘긴다. 20억 달러를 평가 받은 [[코히어]]를 비롯해서 Essential.ai(비공개), Character.ai(10억 달러), Near Protocol(12억 달러), Inceptive Nucleics(9,000만 달러) 등을 창업했다.[[https://www.bloomberg.com/opinion/features/2023-07-13/ex-google-scientists-kickstarted-the-generative-ai-era-of-chatgpt-midjourney|#]] == 외부 링크 == [[https://papers.nips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html|NIPS2017]] [[https://arxiv.org/abs/1706.03762|arXiv:1760.03762]] [[분류:인공지능 논문]]