본문 바로가기

Machine Learning/Reinforcement Learning2

[강화학습] Q 러닝 이해하기 강화학습이란? 강화학습의 목표는 환경(environment)과 상호작용하는 임의의 에이전트(agent)를 학습시키는 것입니다. 에이전트는 환경 속에서 상태(state)를 인식하여 행동(action)하며 학습해 나갑니다. 에이전트가 취한 행동의 응답으로 환경은 양수 혹은 음수 또는 0을 보상(Reward)으로 돌려줍니다. 에이전트의 목표는 초기 상태부터 종료 상태까지 받을 수 있는 보상을 최대화하는 것입니다. 따라서 에이전트가 좋은 행동을 했을 때는 큰 보상을 주어 그 행동을 강화하고 그렇지 않은 행동을 했을 때는 작은 보상 혹은 음의 보상을 줍니다. Q 러닝? Q 러닝은 강화학습 기법 가운데 하나입니다. Q 러닝은 지금은 너무나도 유명한 알파고가 나오기 전부터 존재했던 알고리즘입니다. 여러 가지 한계점으.. 2022. 1. 9.
OpenAI GYM 간단한 사용법 (feat. FrozenLake) * 해당 자료는 김성훈 교수님의 모두를 위한 강화학습을 참고하여 작성하였습니다. OpenAI GYM 강화학습에는 에이전트와 환경이 있습니다. 에이전트는 어떤 행동을 하고 에이전트가 행동을 할 때마다 환경 속에서의 상태는 바뀌게 됩니다. 강화학습을 하려면 에이전트와 환경이 있어야 되는 데 이 때 환경을 만드는 일은 복잡하고 귀찮은 일입니다. OpenAI GYM은 강화학습 환경을 만들어주는 프레임워크입니다. OpenAI GYM으로 강화학습 환경을 만들어 사용하면 환경을 구성하는 데 신경쓸 것 없이 주어진 환경에서 강화학습 알고리즘에 집중할 수 있습니다. GYM은 다음 명령어로 설치할 수 있습니다. pip install gym FrozenLake FrozenLake는 OpenAI GYM에서 제공하는 환경 중 .. 2021. 11. 9.