목록2025/04/29 (2)
동산로의 블로그

Q-learningQ -learning은 강화학습의 일종입니다. 행동에 대해서 보상을 받을 때에, 보상을 가장 높게 만드는 방법을 찾는 알고리즘입니다. 상황 설명주어진 상태에서 에이전트는 행동을 할 수 있습니다. 행동에 따라서 상태가 변화되며, 각 행동에 따라서 보상\(\mathcal{R}\)을 얻을수 있습니다. 가장 직관적인 예시는 게임을 할 때에 컨트롤은 행동이고, 게임 상태는 상태, 점수가 보상인 것입니다. 알고리즘의 목표는 가장 높은 \(Q\)값을 주는 행동을 했을 때에 보상을 최대로 받도록 \(Q\)를 찾는 것 입니다.이론상 완벽한 \(Q\)가 있다면 모든 상황에서 가장 높은 \(Q\)를 만들어 주는 행동만 취하면 됩니다.\(Q\)는 주어진 상태 \(S\)에서 행동\(A\)를 했을 때에 그 행..
jupyter가 실행 중일 때에 pip를 사용하게 되면 가끔 library가 오류나게 됩니다. 이 경우 python을 완전히 삭제해야할 필요가 있습니다. 특히나 의존성 때문에 pip가 자동으로 다른 library를 다운그레이드 할 경우 발생합니다. 완전 깨끗하게 삭제하기 위해서는 파이썬 삭제를 수동으로 해야합니다. 여러번 해 본 결과, pip로 library를 삭제해도 완전히 삭제되지가 않습니다. 또한 제어판 혹은 python 설치프로그램을 통해서 python을 삭제할 수 있습니다. 하지만 이 경우에는 완전히 삭제가 되지 않습니다. 이 경우에는 수동제거가 확실합니다. 1. 제어판 - 프로그램 제거- 파이선 삭제 2. C:\Users\USER\AppData\Local\Programs의 python 폴더..