Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 29

기초강화학습 스터디

(3/19)
스터디 준비
커뮤니케이션 채널 : 스터디 관련 소통을 위한 메신저 그룹이나 온라인
포럼을 구성합니다 .( 카톡 )
주차별 계획
• 1 주차 : OT, 강화학습이란
• 2 주차 : 마르코프 결정 프로세스 , 벨만 방정식
• 3 주차 : MDP 를 알때의 플래닝 , MDP 를 모를 때의 가치 평가
• -----------------------------------------------------------------
• 4 주차 : MDP 를 모를 때 정책 찾기 , Deep RL 을 위한 기초 딥러닝
• 5 주차 : 가치 기반 에이전트
• 6 주차 : 정책 기반 에이전트 & 액터 - 크리틱 에이전트
• 7 주차 : 알파고와 몬테카를로 트리 탐색
• 8 주차 : 블레이드 & 소울 AI 만들기 및 마무리 -> 하자
운영 방침
• 모든 참가자는 최소 하나의 주제에 대해 발표를 합니다 . 발표는
순서대로 진행되며 , 나머지 시간은 질의응답과 토론으로 활용합니다 .
• 발표 순서 정하기
• 지각 및 결석 규칙 : 미리 공지 없이 결석하거나 지각할 경우 , 다음
회차 발표를 맡게 됩니다 . 2 회 연속 결석하거나 3 회 결석할 경우 ,
스터디에서 추방당하게 됩니다
• - 지각에 대한 벌금 3000
• - 결석에 대한 벌금 5000
• 이 계획은 유동적이며 , 참가자들의 피드백과 학습 진도에 따라 조정될
수 있습니다 .
역할 분담
• 발표자 : 주제를 준비하여 발표합니다 . 발표자는 해당 주제에 대해
깊이 공부하고 , 이해를 돕기 위한 자료 ( 슬라이드 , 실습 코드 등 ) 를
준비합니다 .
• ( 기록자 : 스터디 내용과 토론의 핵심 내용을 정리합니다 . 이는
나중에 복습할 때 유용하며 , 스터디가 끝난 후 참고 자료로
활용됩니다 .)
• 자료 준비자 : 다음 회차에 필요한 학습 자료나 참고 자료를 미리
조사하여 공유합니다 .
• 모두가 한다 vs 특정한 사람이 한다
추가 사항
• 출석 여부 확인 → 지각 벌금
• 현행 유지 vs 테스트를 통한 확인
• 발표 인원수
• 혼자 vs 여러 명
• 뒷풀이
• 시간 : 매주 화요일 19 시 -21 시
ch1 강화학습이란

- 1. 지도 학습과 강화학습
- 2. 순차적 의사결정 문제
- 3. 보상
- 4. 에이전트와 환경
- 5. 강화학습의 위력
Supervised learning and Reinforcement learning

• 지도학습과 강화학습의 차이는 무엇일까 ?


• 기계학습의 분류

MLV Lab @ Korea Univ. 8/59


Supervised learning VS RL

• 자전거를 타는 아이

MLV Lab @ Korea Univ. 9/59


RL

• https://www.youtube.com/watch?v=L_4BPjLBF4E&t=10s

MLV Lab @ Korea Univ. 10/59


Machine Learning

• 지도 학습 : 선형 회귀 , 분류
• 비지도 학습 : 클러스터링 , 차원 축소
• 강화 학습 : Q- 러닝 , DQN

• 강화 학습 : 순차적 의사결정 문제에서 누적 보상을 최대화


하기 위해서 시행착오를 통해 행동을 교정하는 학습 과정

MLV Lab @ Korea Univ. 11/59


Sequential decision making

• 순차적 의사결정 문제란 무엇인가 ?


• Ex) 주식 , 운동 , 게임

MLV Lab @ Korea Univ. 12/59


Reward

• RL 에서 보상은 무엇인가 ?
• - 얼마나 : 액션을 하면 얼마나 보상을 얻을 수 있는지 알려줌
• - 스칼라 : 여러 개의 목표가 있다면 -> 가중치 도입
• - 희소하고 지연된 보상 : 보상이 액션에 비해 개수가 적거나
like 바둑 , 바로 확인할 수 없고 늦게 확인하는 경우가 많다

MLV Lab @ Korea Univ. 13/59


Agent and Environment

• 에이전트
• 환경

MLV Lab @ Korea Univ. 14/59


Power of RL

• 우리는 왜 강화학습을 사용하는가 ?


• - 병렬성의 힘
• - 자가 학습의 매력

MLV Lab @ Korea Univ. 15/59


발표 순서

• Ch2 MDP 2 명
• Ch3 bellman equation 2 명
• 민찬홍 이신영 김채은 임유나 류희철 강문수 이재빈 고윤경

MLV Lab @ Korea Univ. 16/59


Temporal difference prediction

• Vs. Monte-carlo prediction


• 몬테카를로 방식의 단점
• -> 종료하는 MDP 에서만 사용할 수 있음
• 종료하지 않는 MDP 에도 적용가능한 방법은 없을까 ?
• -> “ 추측을 추측으로 업데이트하자"

MLV Lab @ Korea Univ. 17/59


“ 추측을 추측으로 업데이트하자”

• 금요일 : 비가 올 확률 50%
• 토요일 : 비가 올 확률 80%
• 일요일은 ?

• 토요일의 확률을 보고 금요일의 예측 값을 높여줌


• -> “Temporal difference ( 시간적 차이 )

MLV Lab @ Korea Univ. 18/59


TD 의 이론적 배경

• “Gt 는 VSt) 의 불편 추정량이다”

MLV Lab @ Korea Univ. 19/59


Cf. 불편 추정량 (unbiased estimate)

• 편의 (bias) 가 없는 추정량
• 모수 : 모집단의 통계량들 ( 모평균 , 모표준편차 )
• 추정량 : 표본통계량 ( 표본평균 , 표본표준편차 )
• 불편추정량 -> 추정량의 기댓값이 모수와 같아지게 함
• ( 왜냐하면 편의 = 추정량의 기댓값 – 모수 )

MLV Lab @ Korea Univ. 20/59


왜 n-1 일까 ?

MLV Lab @ Korea Univ. 21/59


자유도 (degrees of freedom)

• 독립변수의 개수
• x + y + z = 3 => 자유도 : 2
• 편차의 합은 0
• => n 개 표본의 표본표준편차를 구할 때 독립 변수의 개수는 ?
• =0

MLV Lab @ Korea Univ. 22/59


TD 의 이론적 배경

• “Gt 는 VSt) 의 불편 추정량이다”


• (Gt 의 기댓값이 모수와 같다 )
• ( 가치함수의 정의 )
• 라는 표본을 많이 모을수록 기댓값이 는 모수에 가까워진다 .

MLV Lab @ Korea Univ. 23/59


TD 의 이론적 배경

• => MC
• => TD ( 벨만기대 0 단계 )
• : TD 타깃
• => 불편추정량 ( 단 를 알고 있는 경우 )
• TD 에서는 ( 테이블에 있는 밸류값 )
• => 편향된 ( 편의가 있는 ) 추정량 => 편향성 (bias) 문제

MLV Lab @ Korea Univ. 24/59


TD 학습 알고리즘

• )

MLV Lab @ Korea Univ. 25/59


코드 구현

• Import random
• Grid world 클래스
• Agent 클래스
• 메인함수

MLV Lab @ Korea Univ. 26/59


MLV Lab @ Korea Univ. 27/59
MLV Lab @ Korea Univ. 28/59
MLV Lab @ Korea Univ. 29/59

You might also like