RL 0319

기초강화학습 스터디
(3/19)
스터디 준비
커뮤니케이션 채널 : 스터디 관련 소통을 위한 메신저 그룹이나 온라인
포럼을 구성합니다 .( 카톡 )
주차별 계획
• 1 주차 : OT, 강화학습이란
• 2 주차 : 마르코프 결정 프로세스 , 벨만 방정식
• 3 주차 : MDP 를 알때의 플래닝 , MDP 를 모를 때의 가치 평가
• -----------------------------------------------------------------
• 4 주차 : MDP 를 모를 때 정책 찾기 , Deep RL 을 위한 기초 딥러닝
• 5 주차 : 가치 기반 에이전트
• 6 주차 : 정책 기반 에이전트 & 액터 - 크리틱 에이전트
• 7 주차 : 알파고와 몬테카를로 트리 탐색
• 8 주차 : 블레이드 & 소울 AI 만들기 및 마무리 -> 하자
운영 방침
• 모든 참가자는 최소 하나의 주제에 대해 발표를 합니다 . 발표는
순서대로 진행되며 , 나머지 시간은 질의응답과 토론으로 활용합니다 .
• 발표 순서 정하기
• 지각 및 결석 규칙 : 미리 공지 없이 결석하거나 지각할 경우 , 다음
회차 발표를 맡게 됩니다 . 2 회 연속 결석하거나 3 회 결석할 경우 ,
스터디에서 추방당하게 됩니다
• - 지각에 대한 벌금 3000
• - 결석에 대한 벌금 5000
• 이 계획은 유동적이며 , 참가자들의 피드백과 학습 진도에 따라 조정될
수 있습니다 .
역할 분담
• 발표자 : 주제를 준비하여 발표합니다 . 발표자는 해당 주제에 대해
깊이 공부하고 , 이해를 돕기 위한 자료 ( 슬라이드 , 실습 코드 등 ) 를
준비합니다 .
• ( 기록자 : 스터디 내용과 토론의 핵심 내용을 정리합니다 . 이는
나중에 복습할 때 유용하며 , 스터디가 끝난 후 참고 자료로
활용됩니다 .)
• 자료 준비자 : 다음 회차에 필요한 학습 자료나 참고 자료를 미리
조사하여 공유합니다 .
• 모두가 한다 vs 특정한 사람이 한다
추가 사항
• 출석 여부 확인 → 지각 벌금
• 현행 유지 vs 테스트를 통한 확인
• 발표 인원수
• 혼자 vs 여러 명
• 뒷풀이
• 시간 : 매주 화요일 19 시 -21 시
ch1 강화학습이란
- 1. 지도 학습과 강화학습
- 2. 순차적 의사결정 문제
- 3. 보상
- 4. 에이전트와 환경
- 5. 강화학습의 위력
Supervised learning and Reinforcement learning
• 지도학습과 강화학습의 차이는 무엇일까 ?

• 기계학습의 분류
MLV Lab @ Korea Univ. 8/59

Supervised learning VS RL
• 자전거를 타는 아이

RL
• https://www.youtube.com/watch?v=L_4BPjLBF4E&t=10s

Machine Learning
• 지도 학습 : 선형 회귀 , 분류
• 비지도 학습 : 클러스터링 , 차원 축소
• 강화 학습 : Q- 러닝 , DQN
• 강화 학습 : 순차적 의사결정 문제에서 누적 보상을 최대화

하기 위해서 시행착오를 통해 행동을 교정하는 학습 과정

Sequential decision making
• 순차적 의사결정 문제란 무엇인가 ?

• Ex) 주식 , 운동 , 게임

Reward
• RL 에서 보상은 무엇인가 ?
• - 얼마나 : 액션을 하면 얼마나 보상을 얻을 수 있는지 알려줌
• - 스칼라 : 여러 개의 목표가 있다면 -> 가중치 도입
• - 희소하고 지연된 보상 : 보상이 액션에 비해 개수가 적거나
like 바둑 , 바로 확인할 수 없고 늦게 확인하는 경우가 많다

Agent and Environment
• 에이전트
• 환경

Power of RL
• 우리는 왜 강화학습을 사용하는가 ?

• - 병렬성의 힘
• - 자가 학습의 매력

발표 순서
• Ch2 MDP 2 명
• Ch3 bellman equation 2 명
• 민찬홍 이신영 김채은 임유나 류희철 강문수 이재빈 고윤경

Temporal difference prediction
• Vs. Monte-carlo prediction

• 몬테카를로 방식의 단점
• -> 종료하는 MDP 에서만 사용할 수 있음
• 종료하지 않는 MDP 에도 적용가능한 방법은 없을까 ?
• -> “ 추측을 추측으로 업데이트하자＂

“ 추측을 추측으로 업데이트하자”
• 금요일 : 비가 올 확률 50%
• 토요일 : 비가 올 확률 80%
• 일요일은 ?
• 토요일의 확률을 보고 금요일의 예측 값을 높여줌

• -> “Temporal difference ( 시간적 차이 )

TD 의 이론적 배경
• “Gt 는 VSt) 의 불편 추정량이다”

Cf. 불편 추정량 (unbiased estimate)
• 편의 (bias) 가 없는 추정량
• 모수 : 모집단의 통계량들 ( 모평균 , 모표준편차 )
• 추정량 : 표본통계량 ( 표본평균 , 표본표준편차 )
• 불편추정량 -> 추정량의 기댓값이 모수와 같아지게 함
• ( 왜냐하면 편의 = 추정량의 기댓값 – 모수 )

왜 n-1 일까 ?

자유도 (degrees of freedom)
• 독립변수의 개수
• x + y + z = 3 => 자유도 : 2
• 편차의 합은 0
• => n 개 표본의 표본표준편차를 구할 때 독립 변수의 개수는 ?
• =0

• “Gt 는 VSt) 의 불편 추정량이다”

• (Gt 의 기댓값이 모수와 같다 )
• ( 가치함수의 정의 )
• 라는 표본을 많이 모을수록 기댓값이 는 모수에 가까워진다 .

• => MC
• => TD ( 벨만기대 0 단계 )
• : TD 타깃
• => 불편추정량 ( 단 를 알고 있는 경우 )
• TD 에서는 ( 테이블에 있는 밸류값 )
• => 편향된 ( 편의가 있는 ) 추정량 => 편향성 (bias) 문제

TD 학습 알고리즘
• )

코드 구현
• Import random
• Grid world 클래스
• Agent 클래스
• 메인함수


RL 0319

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

RL 0319

Uploaded by

Copyright:

Available Formats

기초강화학습 스터디

• 지도학습과 강화학습의 차이는 무엇일까 ?

MLV Lab @ Korea Univ. 8/59

MLV Lab @ Korea Univ. 9/59

MLV Lab @ Korea Univ. 10/59

• 강화 학습 : 순차적 의사결정 문제에서 누적 보상을 최대화

MLV Lab @ Korea Univ. 11/59

• 순차적 의사결정 문제란 무엇인가 ?

MLV Lab @ Korea Univ. 12/59

MLV Lab @ Korea Univ. 13/59

MLV Lab @ Korea Univ. 14/59

• 우리는 왜 강화학습을 사용하는가 ?

MLV Lab @ Korea Univ. 15/59

MLV Lab @ Korea Univ. 16/59

• Vs. Monte-carlo prediction

MLV Lab @ Korea Univ. 17/59

• 토요일의 확률을 보고 금요일의 예측 값을 높여줌

MLV Lab @ Korea Univ. 18/59

• “Gt 는 VSt) 의 불편 추정량이다”

MLV Lab @ Korea Univ. 19/59

MLV Lab @ Korea Univ. 20/59

MLV Lab @ Korea Univ. 21/59

MLV Lab @ Korea Univ. 22/59

• “Gt 는 VSt) 의 불편 추정량이다”

MLV Lab @ Korea Univ. 23/59

MLV Lab @ Korea Univ. 24/59

MLV Lab @ Korea Univ. 25/59

MLV Lab @ Korea Univ. 26/59

You might also like