Loading...
Performance Improvement of Reinforcement Learning in Non-stationary Environments Using Predictions About Abrupt Environment Changes
Pourshamsaei Dargahi, Hossein | 2025
0
Viewed
- Type of Document: Ph.D. Dissertation
- Language: Farsi
- Document No: 57762 (05)
- University: Sharif University of Technology
- Department: Electrical Engineering
- Advisor(s): Nobakhti, Amin
- Abstract:
- Reinforcement learning in one of the machine learning paradigms in which the agent is seeking to find the optimal policy by interaction with the environment and achieving rewards according to the selected actions. Reinforcement learning has many different applications, such as robotics, control of dynamic systems, industrial automation and etc. In many of the reinforcement learning problems, it is assumed that the environment model does not change over time, while in some problems, reward and state transition probability functions are not necessarily stationary. These problems are referred to as reinforcement learning problems in non-stationary environments. In some real-life applications, availability of some predictions about future sudden environment changes is feasible. For instance, weather changes induce non-stationarity in some problems, such as automatic irrigation or renewable energy production. However, usually there exist some predictions about weather changes with appropriate precision which can be used to improve the policy performance. None of the existing studies provides a framework for utilizing these prediction, while it is possible to use them appropriately prior change occurrence to enter the new environment model with a better initial condition in order to maximize total achieved rewards. In this thesis, following review of existing literature on reinforcement learning in non-stationary environments, novel algorithms are presented which use predictions about environment changes. Together with developing theoretical results, the algorithms are compared with existing methods over several problems such as reference tracking of cart in inverted pendulum system. It will be shown that developed algorithms outperform the previous ones and also outperform the application of individual optimal policies of each observed environment model without utilizing predictions
- Keywords:
- Reinforcement Learning ; Non-Stationary Environments ; Predictive Policy ; Predictive Reinforcement Learning ; Environment Changes Prediction
-
محتواي کتاب
- view
- مقدمه
- پیشگفتار
- تعریف مسئله
- اهمیت موضوع
- نوآوری
- ساختار پایاننامه
- مروری بر پژوهشهای پیشین
- تغییرات ناگهانی محیط بین مدلهای مجزا، بدون استفاده از پیشبینی
- تغییرات تدریجی، بدون استفاده از پیشبینی
- استفاده از پیشبینیها درباره تغییرات آینده مدل محیط
- جمعبندی
- مفاهیم اولیه
- فرایندهای تصمیمگیری مارکوف
- تعاریف پایه
- روشهای حل مسائل یادگیری تقویتی
- ناایستا بودن محیط
- فرایندهای تصمیمگیری مارکوف
- تعریف مسئله مورد پژوهش
- تعریف مسئله استفاده از پیشبینیها در سیاست فعلی در حالت کلی
- تعریف مسئله برای استفاده از پیشبینیها بدون نیاز به آموزش سیاست جدید
- تعریف مسئله برای استفاده از پیشبینیها با آموزش سیاست آمیخته وزندار
- الگوریتمهای پیشنهادی مبتنی بر توابع کیو بهینه
- الگوریتم یادگیری کیو پیشبین
- الگوریتمهای یادگیری کیو پیشبین تصادفی
- تحلیلهای نظری توجیه استفاده از الگوریتم PQL
- شبیهسازیها
- مسئله میدان مین
- ردیابی پیشبین سیگنال مرجع: کنترل موقعیت ارابه در سیستم آونگ وارونه
- جمعبندی
- الگوریتم پیشنهادی مبتنی بر سیاست آمیخته وزندار
- تعاریف تکمیلی مورد نیاز برای ارائه سیاست آمیخته وزندار
- الگوریتم پیشنهادی مبتنی بر سیاست آمیخته وزندار
- سیاست آمیخته وزندار
- نرخ یادگیری تطبیقی
- پیادهسازی الگوریتم P-REINFORCE برای یادگیری WMP
- شبیهسازی: ردیابی پیشبین سیگنال مرجع
- سیستم ساده تکحالته
- کنترل موقعیت ارابه در سیستم آونگ وارونه
- استفاده از سیاست آمیخته وزندار در غیاب برخی فرضهای سختگیرانه نظری
- تحلیل کرانداری پاسخ حلقهبسته با استفاده از سیاست آمیخته وزندار
- مروری مختصر بر پژوهشهای پیشین در حوزه تعویض بین کنترلکنندههای مختلف
- مفاهیم و تعاریف مرتبط با کرانداری سیستمها
- تحلیل کرانداری
- شبیهسازیهای مربوط به بررسی کرانداری
- شروع استفاده از WMP پیش از دستیابی به سیاستهای بهینه
- تحلیل کرانداری پاسخ حلقهبسته با استفاده از سیاست آمیخته وزندار
- جمعبندی
- مراجع
- واژهنامه
- جزئیات پیادهسازی الگوریتمهای پیشین
- جزئیات پیادهسازی الگوریتم RL-CD
- جزئیات پیادهسازی الگوریتم یادگیری کیو محتوا
