티스토리 뷰
The computer that mastered Go
알파고의 핵심
심층 인공 신경망
정책망 + 가치망 = 가용한 크기의 가짓수로 줄임
정책망 : 승률이 높은 수를 제안
가치망 : 탐색의 깊이를 줄여줌, 각 수마다 수십수가 진행된 이후의 가치를 수치화.
알파고와 이세돌 9단과의 제1국은 186수만에 마무리되었다. 브루트포스를 적용할 때 고려해야 할 경우의 수는 다음과 같다.
$${2}^{186} = 9.8 \times {10}^{55}$$
매 클럭당 하나의 대국을 검토할 수 있는 10GHz CPU로 위 경우의 수를 계산하는데 걸리는 시간
$$9.8 \times {10}^{55} \div {10}^{10} = 9.8 \times {10}^{45}초$$
100년의 시간을 준다고 했을때 필요한 CPU의 수
$$100년 = 60 \times 60 \times 24 \times 365 \times 100 = \lceil{3.1536}\rceil \times {10}^{9}초 = 4 \times {10}^{9}초$$
$$9.8 \times {10}^{45} \div 4 \times {10}^{9} = 2.45 \times {10}^{36}개$$
CPU의 질량을 1g으로 가정해도 태양 질량의 1,200배
MinMax
알파베타 플러닝
몬테카를로 트리 탐색
몬테카를로 알파고
딥러닝
정책망 : 전문 바둑기사들의 패턴을 학습
지도학습 : 프로 바둑기사들의 착수 전략 학습
16만개 기보로부터 3000만가지 바둑판 상태를 추출하여 데이터로 사용
강화학습 : 스스로 경기하여 지도학습을 강화
지도학습의 결과는 사람의 착수 선호도이며 최적의 선택이라는 확신이 없으므로, 이를 보완하기 위해 자체대결을 하고, 결과적으로 승리하는 선택에 가중치를 강화
가치망 : 국지적인 패턴 인식을 통한 승산판단
강화학습의 자체대결에서 생성된 3천만 개의 바둑판 상태로부터 가치를 학습함.
목적
범용 알고리즘 or 마케팅?
참고문헌
SPRi Issue Report AlphaGo의 인공지능 알고리즘 분석
댓글