Download as pdf or txt
Download as pdf or txt
You are on page 1of 3

2023 한국소프트웨어종합학술대회 논문집

강화학습에서의 효율적 탐험을 위한 반항적 정책 학습 방법


이강훈◦1,2 , 이민수2 , 장병탁1,2
서울대학교 협동과정 인공지능전공1 , 서울대학교 AI 연구원2
{khlee, mslee, btzhang}@bi.snu.ac.kr
Defiant Policy Learning for Efficient Exploration in Reinforcement Learning
Ganghun Lee◦1,2 , Minsu Lee2 , Byoung-Tak Zhang1,2
Interdisciplinary Program In Artificial Intelligence1 , AIIS2 , Seoul National University

요 약
강화학습에서 탐험은 현행 정책의 행동패턴보다 더 좋은 행동패턴을 발견하기 위한 것으로 학습 성능에 중요한 영향을
미친다. 따라서 보통은 정책을 확률분포의 형태로 사용하여 다양한 행동을 유도하고 탐험성을 보장한다. 하지만 정책이
행동패턴을 형성하는 과정에서 확률분포는 점차 수축하기 때문에 행동패턴이 서서히 편향되면서 여전히 지역최적 정책으
로 수렴할 위험이 있다. 본 논문에서는 이러한 위험을 줄이기 위해 반항적 정책을 학습하여 탐험의 효율을 높이는 방법을
제안한다. 복수의 반항적 정책들로 하여금 같은 상태에 대해 서로 다른 행동을 하도록 유도하여 행동패턴을 다양화하는
것이다. Mujoco Control Suite의 7가지 환경에서 실험한 결과 하나의 정책으로 학습하는 것 보다 반항적 정책을 이용해
학습한 경우에서 전반적으로 더 우수한 점수를 달성함을 확인하였다.

1. 서론 정책이 우위행동을 더 효과적으로 습득하도록 한다.


Mujoco Control Suite [4]의 7개 환경에서 제안된 방법을 적용
강화학습 [1]은 주어진 환경에서 최대의 보상을 얻기 위한 행 한 결과 단일 정책으로 학습한 경우보다 평균적으로 더 좋은 점
동패턴을 자율적으로 학습하는 인공지능 기술이다. 강화학습은 수를 얻을 수 있었다. 일부 환경에서는 단일 정책으로는 발견하
체스, 바둑, 비디오 게임 등에서 인간을 능가하는 수준을 보였으 기 힘들었던 우위전략을 찾아내기도 하였다.
며, 로봇 제어, 추천 시스템, 금융시장, 예술 도구 등 순차적 의
2. 관련 연구
사결정을 요구하는 다양한 영역에서 활용 및 연구되고 있다 [2].
최근에는 대규모 대화형 언어모듈 (GPT-3.5 및 GPT-4)에 인간 피 강화학습의 탐험을 촉진하기 위한 대표적인 연구로 탐험 추가
드백을 이용한 강화학습이 접목되기도 하였다 [3]. 보상을 꼽을 수 있다 [5]. 탐험 추가 보상은 정책이 방문하는 상태
강화학습에서 정책은 행동을 통해 환경과의 상호작용 경험을 가 이전에 경험해보지 못한 곳일수록 더 크게 주어진다. 그러나
쌓고, 어떤 상태에서도 보상을 최대화하는 ‘최적 정책’에 다가가 이 방법은 주로 탐험이 매우 어려운 환경에서의 학습을 가능하게
는 것을 목표로 학습한다. 그러나 정책이 충분히 다양한 경험을 하려는 데 목표가 있어 일반적인 강화학습 환경에서는 유리하게
쌓지 못하면 행동패턴이 편향되어 준최적 상태로 수렴하기 쉽다. 동작하지 않거나 오히려 학습 효율을 떨어뜨릴 수도 있다. 이와
따라서 보통은 행동 다양성을 높이고자 정책을 확률분포로 정의 달리 본 논문은 일반적인 강화학습 환경에서의 탐험 효율 증대를
하며, 정책의 결정에 무작위 행동을 섞기도 한다. 그러나 반대로 통해 성능 또한 개선하는 것을 목표로 한다.
행동 다양성이 너무 높아지면 정책은 중립성이 강해져 수렴 속도 다양한 준최적 정책 집합을 구성하기 위해 집합의 다양성을
가 느려지거나 오히려 좋은 성능으로 나아가지 못할 수도 있다. 촉진시키는 연구들도 진행되어 왔다. 예를 들면, 새로 학습하는
이를 탐색-활용 균형 문제라고 한다. 정책과 사전학습된 정책과의 KL-Divergence 또는 Mean-Squred
확률분포로 정의된 정책은 주된 행동패턴을 활용하기 위해 학 Error (MSE)를 최대화하는 항을 추가해서 이전과는 다른 방식으
습을 거듭하며 필연적으로 분포를 수축시킨다. 분포가 수축하 로 문제를 해결하는 정책을 얻는 식이다 [6, 7]. 다수의 정책이
면 행동패턴이 단일화되면서 지역최적해로 수렴할 위험을 다시 서로 협동하는 멀티-에이전트 강화학습 환경에서도 정책 집합의
내포하게 된다. 본 논문에서는 이러한 문제를 최소화하기 위해 다양성을 유지하기 위해 이러한 방식들이 사용된다 [8].
하나의 정책을 사용하는 대신 복수의 정책을 활용해 행동패턴의 복수의 정책을 사용하는 또 다른 강화학습 분야는 앙상블이다.
다양성을 높여 정책의 편향성을 해소하는 방법을 제안한다. 이 서로 다른 구조를 가지거나, 다르게 초기화되었거나, 다른 알고
방법의 핵심인 일명 ‘반항적 정책’은 같은 상태에 대해 타 정책의 리즘으로 학습하는 정책 또는 그와 관련된 네트워크를 여러 개
행동을 거부하고 일부러 다른 행동을 선택하도록 장려하는 것이 두고 그들 출력의 평균적인 값을 최종 결정값으로 사용하는 것이
다. 이런 반항적 정책들로부터 얻은 다양한 경험을 토대로 공유 다 [9]. 이러한 방법들은 정책의 행동패턴을 직접적으로 다양화
가치함수를 학습하면 가치함수는 더욱 객관적인 정보를 가질 수 하기 보다는 학습과정의 전반적인 편향성을 줄이는 데에 목적이
있게 되며, 이 가치함수로부터 다시 각 정책을 학습함으로써 각 있어 탐험을 촉진시킨다고 보기는 어렵다.

1054
2023 한국소프트웨어종합학술대회 논문집

함수 Lπi 를 다음과 같이 나타낼 수 있다.

i−1
X
Lπi = LRLπi + α × Ldef iant (πk , πi ), i > 1 (3)
k=1

즉, 각 반항적 정책은 앞 순번의 모든 정책으로부터 반항적 손실


함수의 영향을 받는다.
그림 1: 복수의 반항적 정책을 이용한 강화학습 모식도 3.3 반항적 학습을 이용한 강화학습

n개의 정책을 이용하여 강화학습 할 때, 모든 정책은 각자 자


3. 방법 기 자신에 의해 생성된 경험으로 스스로의 정책을 학습한다. 가
령 i > 1번째 반항적 정책 πi 은 스스로에 의해 경험한 상태들에
3.1 강화학습
기반해 Lπi 을 계산한다. 그러나 공유 가치함수 Vπ 는 특정한 정
강화학습 환경은 튜플 ⟨S, A, P, R, γ⟩, S로 구성된 마르코프 책에 귀속되지 않고 모든 정책의 경험을 공유하여 학습한다. 각
결정 문제(Markov Decision Process, MDP)로 표현된다. S는 상 정책이 LRLπi 를 계산할 때에도 공유 가치함수 Vπ 를 사용한다.
태공간, A는 행동공간, P : S × A → S는 상태전이함수, R : S × 따라서 공유 가치함수는 모든 정책으로부터 가치를 학습하며, 각
A → R는 보상함수, γ ∈ [0, 1]는 감가율이다. MDP는 매 시간 t 정책은 공유 가치에 기반해 정책을 학습한다. 각 정책은 가치함
마다 상태 st ∈ S를 가진다. 에이전트가 행동 at ∈ A를 취하면 수의 공유를 제외하면 독립적으로 경험을 수집하고 학습하므로
상태전이함수에 P(·) 의해 상태 st 는 다음 상태 st+1 = P(st , at ) 분산학습을 통해 시간복잡도를 줄일 수 있다. 정책을 학습한 이
로 전이한다. 이때 환경은 에이전트에게 보상 rt+1 = R(st , at ) 후에는 가장 좋은 성능에 도달한 정책을 최종 정책으로 채택한다.
를 제공한다. 매 시간 t마다 에이전트는 상태 st 를 관찰하고 정책 4. 실험 및 결과
π(·)에 따라 행동 at ∼ π(st )를 결정한다. 유한시간 MDP에서
4.1 실험 환경
정책 π의 가치 Vπ 는 에피소드의 끝시간을 t = T 라고 할 때 감
가율이 적용된 에피소드 누적 보상은 Vπ (st ) = rt+1 + γrt+2 + 제안된 방법의 검증을 위해 Mujoco Control Suite [4]의 7가
· · · + γ T −t−1 rT 로 정의된다. 강화학습의 목표는 최적 정책 π ∗ = 지 환경(Reacher-v2, Swimmer-v2, Hopper-v2, HalfCheetah-v2,
argmax Vπ (s)을 찾는 것이다. Walker2d-v2, Ant-v2, Humanoid-v2)을 이용하여 실험하였다. 각
π
환경의 에이전트는 다양한 구조와 수의 관절을 가지며, 관절을
조절하여 목표 위치에 다가가거나 정해진 방향으로 빠르게 이동
3.2 반항적 학습
하는 것이 목표이다. 환경을 나열한 순서는 관절 수에 대해 오름
두 개의 정책을 예시로, 주 정책을 π1 이라고 하고 반항적 정책 차순으로 정렬하였다. 관절의 조절값은 모두 실수로 표현되므로
을 π2 라고 가정한다. 어떤 상태 s에 대해 반항적 정책 π2 는 정책 행동공간은 연속행동공간이다. 강화학습 알고리즘은 Proximal
간 행동의 평균제곱오차(MSE)에 따라 주 정책과 다른 행동을 하 Policy Optimization (PPO) [10]를 사용하여 실험을 진행하였으
도록 유도되는 보조 손실함수 Ldef iant 의 영향을 받는다. 며, 제안된 방법은 PPO에 반항적 학습을 적용하여 실험하였다.
실험에는 α = 0.01, n = 2를 적용하였다.
Ldef iant (π1 , π2 ) = −MSE(π2 (s), π1 (s)) (1) 4.2 실험 결과

제안된 방법의 학습 효율 개선도를 확인하기 위해 단일 정책을


이는 연속행동공간에서의 정책 경사 강화학습 알고리즘을 고려
활용하여 강화학습 할 때(PPO)와 하나의 반항적 정책을 추가하
한 것으로, 강화학습의 정책 손실함수를 LRLπ2 라고 할 때 반항적
여(하나의 주 정책과 하나의 반항적 정책) 강화학습 할 때(Ours)
정책 π2 의 손실함수 Lπ2 를 다음과 같이 표현할 수 있다.
의 학습 그래프를 비교하였다. 그림 2는 각 환경에서 위 두 가지
Lπ2 = LRLπ2 + α × Ldef iant (π1 , π2 ) (2) 경우에 대한 학습 그래프를 비교한 것이다. Hopper-v2를 제외하
면 전반적으로 Ours에서 더 빠르고 높은 점수를 얻을 수 있었다.
이때 α는 반항적 학습의 조절 계수이다. 학습식에 따르면 반항 특히, HalfCheetah-v2 및 Humanoid-v2에서는 단일 정책으로는
적 정책 π2 는 본목적을 달성하면서도 보조 손실함수 Ldef iant 에 조기 수렴되어 얻을 수 없었던 행동패턴을 반항적 정책과 함께
의해 주 정책 π1 과는 다른 행동패턴을 형성하도록 장려된다. 학습할 때 발견하고 발전시킬 수 있었다. 이러한 실험 결과는 반
위 내용을 n개의 복수 정책으로 확장하면 그림 1과 같이 첫번 항적 정책을 사용할 때의 탐험성이 개선되었음을 뒷받침한다.
째 정책 π1 은 주 정책이 되고, i > 1번째 반항적 정책 πi 의 손실 그림 3은 Walker2d-v2 환경에서 조건을 달리하여 더 오래 학습

1055
2023 한국소프트웨어종합학술대회 논문집

그림 3: Walker2d-v2에서의 6,000점대(PPO)와 8,000점대(Ours)


행동패턴 비교

Acknowledgement
이 논문은 2023년도 정부(과학기술정보통신부)의 재
원으로 정보통신기획평가원(2021-0-02068-AIHub/10%,
2021-0-01343-GSAI/5%, 2022-0-00951-LBA/20%, 2022-0-
00953-PICA/20%)와 한국연구재단(RS-2023-00274280/10%,
2021R1A2C1010970/10%), 방위사업청의 재원으로 국방기술진
흥연구소(No.KRIT-CT-23-003/25%)의 지원을 받았음.
참고 문헌
[1] X. Wang, S. Wang, X. Liang, D. Zhao, J. Huang, X. Xu,
B. Dai, and Q. Miao, “Deep reinforcement learning: a sur-
vey,” IEEE Transactions on Neural Networks and Learning
Systems, 2022.
[2] R. Nian, J. Liu, and B. Huang, “A review on reinforcement
learning: Introduction and applications in industrial pro-
cess control,” Computers & Chemical Engineering, vol. 139,
p. 106886, 2020.
[3] T. Wu, S. He, J. Liu, S. Sun, K. Liu, Q.-L. Han, and Y. Tang,
“A brief overview of chatgpt: The history, status quo and po-
tential future development,” IEEE/CAA Journal of Automat-
ica Sinica, vol. 10, no. 5, pp. 1122–1136, 2023.
그림 2: 반항적 정책과 함께 학습할 때와 기존 정책으로만 학습
할 때의 학습 그래프 비교 [4] E. Todorov, T. Erez, and Y. Tassa, “Mujoco: A physics en-
gine for model-based control,” in 2012 IEEE/RSJ interna-
tional conference on intelligent robots and systems, pp. 5026–
5033, IEEE, 2012.
한 결과이다. PPO는 6,000점 부근에서 수렴하였으나 Ours는 최
[5] T. Yang, H. Tang, C. Bai, J. Liu, J. Hao, Z. Meng, P. Liu,
대 약 8,000점까지 달성하였다. 많은 기존 연구들에서 6,000점을 and Z. Wang, “Exploration in deep reinforcement learning:
a comprehensive survey,” arXiv preprint arXiv:2109.06668,
넘는 자료는 거의 찾아보기 힘든 점을 미루어 보아 8,000점대는 2021.
SOTA 성능에 가까운 수치이다. 그림 3에 연달아 나타난 장면은 [6] J. Parker-Holder, A. Pacchiano, K. M. Choromanski, and S. J.
Ours와 PPO의 최종 행동패턴을 나타낸 것이다. PPO에서는 걷 Roberts, “Effective diversity in population based reinforce-
ment learning,” Advances in Neural Information Processing
는 듯한 모습인 것과 달리 Ours에서는 뛰는 듯한 모습인 것으로 Systems, vol. 33, pp. 18050–18062, 2020.
보아, Ours에서는 반항적 학습의 도움으로 걷는 것 이상의 행동
[7] Z.-W. Hong, T.-Y. Shann, S.-Y. Su, Y.-H. Chang, T.-J. Fu, and
패턴을 발견하고 터득할 수 있었다. C.-Y. Lee, “Diversity-driven exploration strategy for deep re-
inforcement learning,” Advances in neural information pro-
cessing systems, vol. 31, 2018.
5. 결론
[8] C. Li, T. Wang, C. Wu, Q. Zhao, J. Yang, and C. Zhang, “Cel-
ebrating diversity in shared multi-agent reinforcement learn-
본 논문에서는 강화학습에서의 탐험을 증진시키고 최종적으 ing,” Advances in Neural Information Processing Systems,
로 학습의 효율을 증대시키기 위해 복수의 정책을 활용하는 반 vol. 34, pp. 3991–4002, 2021.
항적 정책 학습 방법을 제안하였다. 실험 결과 단일 정책을 사용 [9] Y. Song, P. Suganthan, W. Pedrycz, J. Ou, Y. He, and Y. Chen,
“Ensemble reinforcement learning: A survey,” arXiv preprint
할 때보다 복수의 정책을 통해 반항적 학습할 때 더 학습 효율이 arXiv:2303.02618, 2023.
좋았으며, 우위의 행동패턴을 발견할 가능성이 더 높았다. 향후
[10] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and
분산화에 따른 시간복잡도를 분석하고, 이산행동공간을 가지는 O. Klimov, “Proximal policy optimization algorithms,” arXiv
preprint arXiv:1707.06347, 2017.
환경에서의 실험과 두 정책이 아닌 더 많은 정책에서의 실험을
통해 제안된 방법을 발전시킬 계획이다.

1056

You might also like