Python (3) 썸네일형 리스트형 REINFORCE Policy Gradient Algorithms (tistory.com) Policy Gradient Algorithms 이 글은 아래 링크에 있는 페이지의 내용을 공부를 위해 한글로 번역(의역)한 것임을 알립니다. 나름의 이해를 돕기위해 첨언은 파란색으로 나타내겠습니다. =============================================== altheacom.tistory.com 본문에 표기된 알고리즘은 다음과 같습니다. Policy Parameter $\theta$를 랜덤으로 초기화합니다. Policy $\pi_\theta$의 경로 하나를 생성합니다. : $S_1, A_1, R_2, S_2, A_2, \cdots, S_T$ For t=1, 2, $\cdots$, T: Return $G_.. Policy Gradient Algorithms 원래는 아래 링크가 한글로 번역된 것을 찾을 수가 없어서 번역을 작성하고 공부하며 코드를 작성하려고 하였습니다. 그런데 어쩌다 보니 번역이 되어있는 페이지를 찾게되어 번역은 더이상 하지 않아도 되었습니다. 해당 링크를 공유하도록 하겠습니다. 그러나 실제로 한글로 구현하는 과정이 잘 설명되어 있는 곳도 없는 것 같고, 이미 관련 학과를 수료하신 전문적인 분들이 이론적으로 다루는 것이 대부분입니다. 저도 나름대로 국내 최고 전문가인 분들께 배우긴 했는데, 생각해보니 배경지식이 미흡한데 강화학습의 기반이 되는 이론을 배운 것이라 이해하기 힘들었습니다. 그래도 관련 업무를 해야하기에 관심은 많아 공부를 하려고 책이나 구현된 코드등을 검색해도 알고리즘 그 자체를 설명하면서 구현한 사람은 없어 보입니다. 저는 솔직.. Python + Flask + Dash + IIS 아무래도 서버를 하나 가지고 있으면 향후 편할것 같아서 회사에서 REST API를 하나 구축하고자 하였습니다. 배워보고자 핫하다는 Golang으로 만들었긴 했는데.. 여러개의 프로그램 언어를 하는 것에 회의감이 들어서 결국 옆 동료들이 사용하는 Python으로 만들기로 잠정 마음 먹었습니다. 그래서 Python으로 난생 처음 Web Service를 구축해보고자 합니다. Flask로는 Rest API 서버를 구축하고, Dash로는 Web을 보여줄까하는데 그 부분은 향후에 소개드릴 수 있으면 소개드리도록 하겠습니다. 시작하겠습니다. 1. IIS 서버를 설치합니다. Flask 및 Dash와 IIS를 연결할 매개체는 FastCGI라고 하는 기술입니다. 그 두개를 엮어주기 위해선 아래 2개의 기능을 켜야합니다. .. 이전 1 다음