알파고 (문단 편집)

=== 알파제로 ===
[[https://arxiv.org/pdf/1712.01815.pdf|논문보기]]

2017년 12월 [[arXiv]]를 통해 공개됐다. 알파고 제로에서 '[[바둑|고]]'가 빠진 것에서 알 수 있듯이 기존 알파고 제로의 알고리즘을 일반화시켜 다른 게임에도 적용할 수 있도록 한 것이다. 논문에서는 [[바둑]], [[체스]], [[쇼기]]를 학습했으며, 기존 최강급 알고리즘을 모두 꺾었다. 논문에서는 체스를 위주로 설명했으며, Stockfish를 상대로 승리한 기보 10개를 공개했다. 이를 본 외국의 체스팬들 역시 [[https://chess24.com/en/read/news/deepmind-s-alphazero-crushes-chess|스카이넷 드립]]을 쳤다.

흑/백으로 각각 50판씩 두었다.
 * 체스: 4시간부터 이기기 시작해 9시간(4400만판) 트레이닝 후 Stockfish8[* 2016 TCEC 우승 인공지능.]를 상대로 백으로 25승 25무, 흑으로 3승 47무로 100 판 종합전적 28승 72 무승부 '''무패'''로 완승.[* 체스는 백이 선이며, 기물이 적어지면 [[체크메이트]]를 할 수 없는 게임 특성상 무승부가 잦게 나온다.] Stockfish는 전통적인 탐색 트리 방식의 체스 프로그램으로 최고의 레이팅 기록을 가진 프로그램. 알파고의 방식이 고속 탐색 방식보다 우월함을 보여주고 있다.
 * 쇼기: 2시간부터 이기기 시작해 12시간(2400만판) 트레이닝 후 Elmo[* 2017 CSA 우승 인공지능]을 상대로 백으로 43승 2무 5패, 흑으로 47승 3패로 압승.
 * 바둑: 36시간(2100만판) 트레이닝 후 '''알파고 제로'''를 상대로 백으로 31승 19패, 흑으로 29승 21패로 60% 승률. 단, 알파고 제로는 20블럭 3일 트레이닝 버전으로 최강급 기력(40블럭, 40일)은 아니다. 마스터보다 약하지만 그래도 돌파고보다는 쎄다. 알파고가 3일간 트레이닝한 것을 알파는 36시간만에 넘어섰는데, 이는 트레이닝에 사용된 하드웨어 연산량이 더 높았기 때문으로 보인다.

2018년엔 Stockfish9와 [[https://www.chess.com/news/view/updated-alphazero-crushes-stockfish-in-new-1-000-game-match|두번째 체스 대결]]을 했다. 총 1000판을 했으며, 155승 839무 6패의 성적을 올렸다. [[스톡피시]]에게는 오프닝북 데이터베이스를 사용할 수 있게 하고, TCEC와 동일한 머신에서 동작하도록 했다. 두 엔진간 시간을 다르게 주어본 경우도 테스트 했는데, 스톡피시가 알파제로에 비해 10배 이상의 시간을 사용할 때부터 두 엔진의 승률이 비슷하게 나왔다고 한다.

2020년엔 체스에서 규칙들을 수정한 여러 번형룰을 학습시키고 연구한 결과를 [[https://arxiv.org/abs/2009.04374|논문]]을 통해 공개했다. 구현한 규칙은 [[캐슬링]] 금지, [[스테일메이트]] 시 승리, [[폰(체스)|폰]]이 옆으로도 이동 가능, 후진가능, 항상 2칸 이동 가능, 자신의 기물을 잡을 수 있음 등이 있었다. ~~대부분 선공존망겜이었다~~

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

알파고 (문단 편집)

캡챠