Professional Documents
Culture Documents
11-357
11-357
요 약
강화학습에서 탐험은 현행 정책의 행동패턴보다 더 좋은 행동패턴을 발견하기 위한 것으로 학습 성능에 중요한 영향을
미친다. 따라서 보통은 정책을 확률분포의 형태로 사용하여 다양한 행동을 유도하고 탐험성을 보장한다. 하지만 정책이
행동패턴을 형성하는 과정에서 확률분포는 점차 수축하기 때문에 행동패턴이 서서히 편향되면서 여전히 지역최적 정책으
로 수렴할 위험이 있다. 본 논문에서는 이러한 위험을 줄이기 위해 반항적 정책을 학습하여 탐험의 효율을 높이는 방법을
제안한다. 복수의 반항적 정책들로 하여금 같은 상태에 대해 서로 다른 행동을 하도록 유도하여 행동패턴을 다양화하는
것이다. Mujoco Control Suite의 7가지 환경에서 실험한 결과 하나의 정책으로 학습하는 것 보다 반항적 정책을 이용해
학습한 경우에서 전반적으로 더 우수한 점수를 달성함을 확인하였다.
1054
2023 한국소프트웨어종합학술대회 논문집
i−1
X
Lπi = LRLπi + α × Ldef iant (πk , πi ), i > 1 (3)
k=1
1055
2023 한국소프트웨어종합학술대회 논문집
Acknowledgement
이 논문은 2023년도 정부(과학기술정보통신부)의 재
원으로 정보통신기획평가원(2021-0-02068-AIHub/10%,
2021-0-01343-GSAI/5%, 2022-0-00951-LBA/20%, 2022-0-
00953-PICA/20%)와 한국연구재단(RS-2023-00274280/10%,
2021R1A2C1010970/10%), 방위사업청의 재원으로 국방기술진
흥연구소(No.KRIT-CT-23-003/25%)의 지원을 받았음.
참고 문헌
[1] X. Wang, S. Wang, X. Liang, D. Zhao, J. Huang, X. Xu,
B. Dai, and Q. Miao, “Deep reinforcement learning: a sur-
vey,” IEEE Transactions on Neural Networks and Learning
Systems, 2022.
[2] R. Nian, J. Liu, and B. Huang, “A review on reinforcement
learning: Introduction and applications in industrial pro-
cess control,” Computers & Chemical Engineering, vol. 139,
p. 106886, 2020.
[3] T. Wu, S. He, J. Liu, S. Sun, K. Liu, Q.-L. Han, and Y. Tang,
“A brief overview of chatgpt: The history, status quo and po-
tential future development,” IEEE/CAA Journal of Automat-
ica Sinica, vol. 10, no. 5, pp. 1122–1136, 2023.
그림 2: 반항적 정책과 함께 학습할 때와 기존 정책으로만 학습
할 때의 학습 그래프 비교 [4] E. Todorov, T. Erez, and Y. Tassa, “Mujoco: A physics en-
gine for model-based control,” in 2012 IEEE/RSJ interna-
tional conference on intelligent robots and systems, pp. 5026–
5033, IEEE, 2012.
한 결과이다. PPO는 6,000점 부근에서 수렴하였으나 Ours는 최
[5] T. Yang, H. Tang, C. Bai, J. Liu, J. Hao, Z. Meng, P. Liu,
대 약 8,000점까지 달성하였다. 많은 기존 연구들에서 6,000점을 and Z. Wang, “Exploration in deep reinforcement learning:
a comprehensive survey,” arXiv preprint arXiv:2109.06668,
넘는 자료는 거의 찾아보기 힘든 점을 미루어 보아 8,000점대는 2021.
SOTA 성능에 가까운 수치이다. 그림 3에 연달아 나타난 장면은 [6] J. Parker-Holder, A. Pacchiano, K. M. Choromanski, and S. J.
Ours와 PPO의 최종 행동패턴을 나타낸 것이다. PPO에서는 걷 Roberts, “Effective diversity in population based reinforce-
ment learning,” Advances in Neural Information Processing
는 듯한 모습인 것과 달리 Ours에서는 뛰는 듯한 모습인 것으로 Systems, vol. 33, pp. 18050–18062, 2020.
보아, Ours에서는 반항적 학습의 도움으로 걷는 것 이상의 행동
[7] Z.-W. Hong, T.-Y. Shann, S.-Y. Su, Y.-H. Chang, T.-J. Fu, and
패턴을 발견하고 터득할 수 있었다. C.-Y. Lee, “Diversity-driven exploration strategy for deep re-
inforcement learning,” Advances in neural information pro-
cessing systems, vol. 31, 2018.
5. 결론
[8] C. Li, T. Wang, C. Wu, Q. Zhao, J. Yang, and C. Zhang, “Cel-
ebrating diversity in shared multi-agent reinforcement learn-
본 논문에서는 강화학습에서의 탐험을 증진시키고 최종적으 ing,” Advances in Neural Information Processing Systems,
로 학습의 효율을 증대시키기 위해 복수의 정책을 활용하는 반 vol. 34, pp. 3991–4002, 2021.
항적 정책 학습 방법을 제안하였다. 실험 결과 단일 정책을 사용 [9] Y. Song, P. Suganthan, W. Pedrycz, J. Ou, Y. He, and Y. Chen,
“Ensemble reinforcement learning: A survey,” arXiv preprint
할 때보다 복수의 정책을 통해 반항적 학습할 때 더 학습 효율이 arXiv:2303.02618, 2023.
좋았으며, 우위의 행동패턴을 발견할 가능성이 더 높았다. 향후
[10] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and
분산화에 따른 시간복잡도를 분석하고, 이산행동공간을 가지는 O. Klimov, “Proximal policy optimization algorithms,” arXiv
preprint arXiv:1707.06347, 2017.
환경에서의 실험과 두 정책이 아닌 더 많은 정책에서의 실험을
통해 제안된 방법을 발전시킬 계획이다.
1056