티스토리 뷰

카테고리 없음

알파고 정리

leeted 2016. 3. 14. 23:03
The computer that mastered Go

알파고의 핵심
심층 인공 신경망
정책망 + 가치망 = 가용한 크기의 가짓수로 줄임
정책망 : 승률이 높은 수를 제안
가치망 : 탐색의 깊이를 줄여줌, 각 수마다 수십수가 진행된 이후의 가치를 수치화.

알파고와 이세돌 9단과의 제1국은 186수만에 마무리되었다. 브루트포스를 적용할 때 고려해야 할 경우의 수는 다음과 같다.
$${2}^{186} = 9.8 \times {10}^{55}$$

매 클럭당 하나의 대국을 검토할 수 있는 10GHz CPU로 위 경우의 수를 계산하는데 걸리는 시간

$$9.8 \times {10}^{55} \div {10}^{10} = 9.8 \times {10}^{45}초$$

100년의 시간을 준다고 했을때 필요한 CPU의 수

$$100년 = 60 \times 60 \times 24 \times 365 \times 100 = \lceil{3.1536}\rceil \times {10}^{9}초 = 4 \times {10}^{9}초$$

$$9.8 \times {10}^{45} \div 4 \times {10}^{9} = 2.45 \times {10}^{36}개$$

CPU의 질량을 1g으로 가정해도 태양 질량의 1,200배


MinMax


알파베타 플러닝



몬테카를로 트리 탐색




몬테카를로 알파고



딥러닝

정책망 : 전문 바둑기사들의 패턴을 학습

지도학습 : 프로 바둑기사들의 착수 전략 학습

16만개 기보로부터 3000만가지 바둑판 상태를 추출하여 데이터로 사용

강화학습 : 스스로 경기하여 지도학습을 강화

지도학습의 결과는 사람의 착수 선호도이며 최적의 선택이라는 확신이 없으므로, 이를 보완하기 위해 자체대결을 하고, 결과적으로 승리하는 선택에 가중치를 강화

가치망 : 국지적인 패턴 인식을 통한 승산판단

강화학습의 자체대결에서 생성된 3천만 개의 바둑판 상태로부터 가치를 학습함.


목적

범용 알고리즘 or 마케팅?


참고문헌

SPRi Issue Report AlphaGo의 인공지능 알고리즘 분석

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/02   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28
글 보관함