Professional Documents
Culture Documents
RL 0319
RL 0319
(3/19)
스터디 준비
커뮤니케이션 채널 : 스터디 관련 소통을 위한 메신저 그룹이나 온라인
포럼을 구성합니다 .( 카톡 )
주차별 계획
• 1 주차 : OT, 강화학습이란
• 2 주차 : 마르코프 결정 프로세스 , 벨만 방정식
• 3 주차 : MDP 를 알때의 플래닝 , MDP 를 모를 때의 가치 평가
• -----------------------------------------------------------------
• 4 주차 : MDP 를 모를 때 정책 찾기 , Deep RL 을 위한 기초 딥러닝
• 5 주차 : 가치 기반 에이전트
• 6 주차 : 정책 기반 에이전트 & 액터 - 크리틱 에이전트
• 7 주차 : 알파고와 몬테카를로 트리 탐색
• 8 주차 : 블레이드 & 소울 AI 만들기 및 마무리 -> 하자
운영 방침
• 모든 참가자는 최소 하나의 주제에 대해 발표를 합니다 . 발표는
순서대로 진행되며 , 나머지 시간은 질의응답과 토론으로 활용합니다 .
• 발표 순서 정하기
• 지각 및 결석 규칙 : 미리 공지 없이 결석하거나 지각할 경우 , 다음
회차 발표를 맡게 됩니다 . 2 회 연속 결석하거나 3 회 결석할 경우 ,
스터디에서 추방당하게 됩니다
• - 지각에 대한 벌금 3000
• - 결석에 대한 벌금 5000
• 이 계획은 유동적이며 , 참가자들의 피드백과 학습 진도에 따라 조정될
수 있습니다 .
역할 분담
• 발표자 : 주제를 준비하여 발표합니다 . 발표자는 해당 주제에 대해
깊이 공부하고 , 이해를 돕기 위한 자료 ( 슬라이드 , 실습 코드 등 ) 를
준비합니다 .
• ( 기록자 : 스터디 내용과 토론의 핵심 내용을 정리합니다 . 이는
나중에 복습할 때 유용하며 , 스터디가 끝난 후 참고 자료로
활용됩니다 .)
• 자료 준비자 : 다음 회차에 필요한 학습 자료나 참고 자료를 미리
조사하여 공유합니다 .
• 모두가 한다 vs 특정한 사람이 한다
추가 사항
• 출석 여부 확인 → 지각 벌금
• 현행 유지 vs 테스트를 통한 확인
• 발표 인원수
• 혼자 vs 여러 명
• 뒷풀이
• 시간 : 매주 화요일 19 시 -21 시
ch1 강화학습이란
- 1. 지도 학습과 강화학습
- 2. 순차적 의사결정 문제
- 3. 보상
- 4. 에이전트와 환경
- 5. 강화학습의 위력
Supervised learning and Reinforcement learning
• 자전거를 타는 아이
• https://www.youtube.com/watch?v=L_4BPjLBF4E&t=10s
• 지도 학습 : 선형 회귀 , 분류
• 비지도 학습 : 클러스터링 , 차원 축소
• 강화 학습 : Q- 러닝 , DQN
• RL 에서 보상은 무엇인가 ?
• - 얼마나 : 액션을 하면 얼마나 보상을 얻을 수 있는지 알려줌
• - 스칼라 : 여러 개의 목표가 있다면 -> 가중치 도입
• - 희소하고 지연된 보상 : 보상이 액션에 비해 개수가 적거나
like 바둑 , 바로 확인할 수 없고 늦게 확인하는 경우가 많다
• 에이전트
• 환경
• Ch2 MDP 2 명
• Ch3 bellman equation 2 명
• 민찬홍 이신영 김채은 임유나 류희철 강문수 이재빈 고윤경
• 금요일 : 비가 올 확률 50%
• 토요일 : 비가 올 확률 80%
• 일요일은 ?
• 편의 (bias) 가 없는 추정량
• 모수 : 모집단의 통계량들 ( 모평균 , 모표준편차 )
• 추정량 : 표본통계량 ( 표본평균 , 표본표준편차 )
• 불편추정량 -> 추정량의 기댓값이 모수와 같아지게 함
• ( 왜냐하면 편의 = 추정량의 기댓값 – 모수 )
• 독립변수의 개수
• x + y + z = 3 => 자유도 : 2
• 편차의 합은 0
• => n 개 표본의 표본표준편차를 구할 때 독립 변수의 개수는 ?
• =0
• => MC
• => TD ( 벨만기대 0 단계 )
• : TD 타깃
• => 불편추정량 ( 단 를 알고 있는 경우 )
• TD 에서는 ( 테이블에 있는 밸류값 )
• => 편향된 ( 편의가 있는 ) 추정량 => 편향성 (bias) 문제
• )
• Import random
• Grid world 클래스
• Agent 클래스
• 메인함수