Sharif Digital Repository / Sharif University of Technology
    • [Zoom In]
    • [Zoom Out]
  • Page 
     of  0
  • [Previous Page]
  • [Next Page]
  • [Fullscreen view]
  • [Close]
 
بهبود کارایی داده در یادگیری تقویتی پیش‌ بین در محیط‌های غیرایستا
ریماز، محمد صدرا Rimaz, Mohammad Sadra

Cataloging brief

بهبود کارایی داده در یادگیری تقویتی پیش‌ بین در محیط‌های غیرایستا
پدیدآور اصلی :   ریماز، محمد صدرا Rimaz, Mohammad Sadra
ناشر :   صنعتی شریف
سال انتشار  :   1403
موضوع ها :   یادگیری تقویتی Reinforcement Learning کیفیت داده‌ها Data Efficiency سیاست پیش‌ بین...
شماره راهنما :   ‭05-57570

Find in content

sort by

Bookmark

  • مقدمه (12)
    • پیشگفتار (12)
    • تعریف مسئله (14)
    • مرور پژوهش‌های پیشین (16)
    • اهمیت موضوع (19)
    • نوآوری (22)
    • ساختار پایان‌نامه (23)
  • مفاهیم اولیه (24)
    • چارچوب ریاضی یادگیری تقویتی (24)
      • تعاریف (24)
    • روش‌های مورد استفاده در مسائل یادگیری تقویتی (27)
    • محیط‌های غیرایستا (28)
    • سیاست آمیخته وزن‌دار (28)
      • تعریف مسئله سیاست آمیخته وزن‌دار (30)
      • ساختار سیاست آمیخته وزن‌دار (32)
      • پیاده سازی (33)
  • الگوریتم آموزش سیاست آمیخته وزن‌دار پیش از دستیابی به سیاست بهینه مدل‌ها (35)
    • مقدمات شبیه‌سازی (36)
      • مسئله شبیه‌سازی (36)
      • چارچوب شبیه‌سازی (38)
      • الگوریتم آموزش سیاست‌ها (39)
      • شیوه ارزیابی (42)
      • کاوش از طریق افزودن ترم انتروپی (43)
      • سیستم‌های مورد استفاده (45)
    • شروع آموزش WMP پیش از دستیابی به سیاست بهینه مدل‌ها (49)
    • دلایل امکان‌پذیری آموزش WMP پیش از دستیابی به سیاست بهینه مدل‌ها (52)
      • وابستگی آموزش WMP به سیاست مدل‌هایی با پاسخ همگرا (52)
      • بهبود عملکرد سیاست ردیابی مرجع با تابع پاداش درجه ۲ (54)
    • الگوریتم پیشنهادی برای تخصیص داده‌های آموزشی به سیاست‌ها (58)
    • شبیه‌سازی (61)
      • شبیه‌سازی اول: کنترل ارابه در سیستم آونگ معکوس (61)
      • شبیه‌سازی دوم: سیستم ون‌درپل با دینامیک یکسان (64)
      • شبیه‌سازی سوم: سیستم ون‌درپول با دینامیک متفاوت (66)
    • جمع‌بندی (69)
  • جمع بندی (70)
  • مراجع (71)
  • واژه‌نامه (76)
  • آزمون آماری t (80)
Loading...