알파고 (문단 편집)

=== 알파고 제로 (알파고 2.0) ===
[[http://www.cyberoro.com/news/news_view.oro?div_no=11&num=522588|인간의 기보 입력 없이 자체 학습만으로]] 기력을 향상시킨다고 한 버전. 처음에는 [[바둑의 미래 서밋]]에서 사용되는 버전이라고 알려졌지만, 사실 하사비스가 인간의 기보 없이 자체의 바둑 학습만으로 기력을 향상시키는 연구를 진행한다고 했을 뿐이지 '바둑의 미래 서밋'에 등장한 알파고가 이 연구의 과정이나 결과라고 언급한 적은 없다.

[youtube(_rqfvr1uHbA)]
2017년 10월 19일 [[네이처(학술지)|네이처]]에 발표한 논문을 통해 알파고 제로라는 이름으로 공개됐다. 하드웨어는 마파고와 동일한 TPU 4개를 사용하며, 소프트웨어적으로는 가치망과 정책망 2개의 신경망을 사용했던 기존 버전들과는 달리 새로운 신경망 1개만을 사용하도록 변경되었다. 주어진 기보 없이 한 수에 0.4초씩 걸리는 속기를 통해 학습을 진행했다.

학습 시작 36시간 만에 돌파고([[이세돌]]과 상대한 버전) 수준을 능가했으며, 72시간(490만판)을 학습한 뒤에는 돌파고와 실전과 동일한 조건으로 뒀을 때(제한시간 2시간) 100번 둬서 100승을 거두었다. 40일(2900만판)을 학습한 후에는 마파고([[커제]]와 상대한 버전)를 압도하는 수준에 이르러 100전 89승 11패를 기록했다. Google이 추정한 [[Elo 레이팅]]은 5185. 인간의 방식을 전혀 사용하지 않고, 강화학습만을 통해 말 그대로 無(ZERO)에서 神의 경지까지 오른 것이다.

하지만 아쉽게도 이후 훈련을 멈추었다고 한다. 제작자 Q&A에서 왜 40일만 훈련했냐는 물음에 "만약 우리가 3개월 동안 훈련했다면 왜 6개월 동안 안했냐고 물을거잖아?"라고 답변했다. 이 버전으로 인간과 대국할 계획도 없으며, 이미 알파고의 하드웨어와 연구원들은 다른 일에 투입된 상태라고 한다.
참고로, 알파고 제로의 학습에는 TPU 2000개가 투입되었다.[[https://www.inside.com.tw/2017/11/10/aja-alphago-zero|#]] 이는 약 90PFLOPS에 해당되는 무지막지한 연산 성능이고, 이러한 연산 자원을 한 달 넘게 온전히 바둑 연구에만 투입한다는 것은 Google이 아니면 감히 흉내내기 어려운 짓이기는 하다. (2017년 현재 슈퍼컴퓨터 1위의 성능이 93PFLOPS, 2위 성능이 34PFLOPS) [* 단, PFLOPS는 단순히 계산량을 뜻하며 범용 슈퍼컴퓨터와 1:1로 비교하는 것은 차이가 있다. 그래픽카드의 연산성능이 CPU보다 우월하다 해서 그래픽카드가 CPU보다 우월하지 않은 것과 같은 이유. TPU는 인공신경망 구성에만 사용할 수 있을 뿐 다른 일에는 사용할 수 없다.]

추가로 알파고 제로가 여러 알파고 버전과 대결한 기보를 공개하였다. [[http://www.alphago-games.com/|기보 정보]]

[[https://www.nature.com/nature/journal/v550/n7676/full/nature24270.html|알파고 Zero 버전 논문(네이처)]] [[https://brunch.co.kr/@madlymissyou/18|이에 대한 ETRI 이정원 연구원의 평론]] [[https://www.nature.com/nature/journal/v550/n7676/extref/nature24270-s2.zip|AlphaGo Zero 버전의 기보 100개]] [[https://gall.dcinside.com/board/view/?id=baduk&no=378695|알파고 Zero 버전 기보 참고사항(바둑 갤러리)]]

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

알파고 (문단 편집)

캡챠