티스토리 뷰
The computer that mastered Go
알파고의 핵심
심층 인공 신경망
정책망 + 가치망 = 가용한 크기의 가짓수로 줄임
정책망 : 승률이 높은 수를 제안
가치망 : 탐색의 깊이를 줄여줌, 각 수마다 수십수가 진행된 이후의 가치를 수치화.
알파고와 이세돌 9단과의 제1국은 186수만에 마무리되었다. 브루트포스를 적용할 때 고려해야 할 경우의 수는 다음과 같다.
$${2}^{186} = 9.8 \times {10}^{55}$$
매 클럭당 하나의 대국을 검토할 수 있는 10GHz CPU로 위 경우의 수를 계산하는데 걸리는 시간
$$9.8 \times {10}^{55} \div {10}^{10} = 9.8 \times {10}^{45}초$$
100년의 시간을 준다고 했을때 필요한 CPU의 수
$$100년 = 60 \times 60 \times 24 \times 365 \times 100 = \lceil{3.1536}\rceil \times {10}^{9}초 = 4 \times {10}^{9}초$$
$$9.8 \times {10}^{45} \div 4 \times {10}^{9} = 2.45 \times {10}^{36}개$$
CPU의 질량을 1g으로 가정해도 태양 질량의 1,200배
MinMax
알파베타 플러닝
몬테카를로 트리 탐색
몬테카를로 알파고
딥러닝
정책망 : 전문 바둑기사들의 패턴을 학습
지도학습 : 프로 바둑기사들의 착수 전략 학습
16만개 기보로부터 3000만가지 바둑판 상태를 추출하여 데이터로 사용
강화학습 : 스스로 경기하여 지도학습을 강화
지도학습의 결과는 사람의 착수 선호도이며 최적의 선택이라는 확신이 없으므로, 이를 보완하기 위해 자체대결을 하고, 결과적으로 승리하는 선택에 가중치를 강화
가치망 : 국지적인 패턴 인식을 통한 승산판단
강화학습의 자체대결에서 생성된 3천만 개의 바둑판 상태로부터 가치를 학습함.
목적
범용 알고리즘 or 마케팅?
참고문헌
SPRi Issue Report AlphaGo의 인공지능 알고리즘 분석
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 사파리
- 키보드
- 심리테스트
- 네이버
- 라구나
- 병맛글수집
- MySQL
- Safari
- SM5
- 공포
- JSON
- C++
- naver
- 오디오
- Windows
- L43
- 뉴SM5신형
- 소니
- nook
- 이클립스
- 하드론
- 자바스크립트
- SOLR
- Eclipse
- 윈도우
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
글 보관함