Sharif Digital Repository / Sharif University of Technology
    • [Zoom In]
    • [Zoom Out]
  • Page 
     of  0
  • [Previous Page]
  • [Next Page]
  • [Fullscreen view]
  • [Close]
 
کنترل بهینهٔ یک سامانهٔ رباتیکی بر اساس الگوریتم‌ یادگیری تقویتی عمیق
خادم حقیقیان، بهراد Khadem Haqiqiyan, Behrad

Cataloging brief

کنترل بهینهٔ یک سامانهٔ رباتیکی بر اساس الگوریتم‌ یادگیری تقویتی عمیق
پدیدآور اصلی :   خادم حقیقیان، بهراد Khadem Haqiqiyan, Behrad
ناشر :   صنعتی شریف
سال انتشار  :   1402
موضوع ها :   یادگیری تقویتی عمیق Deep Reinforcement Learning ربات شناسی Robotics رباتیک هوشمند...
شماره راهنما :   ‭08-57178

Find in content

sort by

Bookmark

  • Binder1 (1)
    • Thesis-final revision (1)
    • 2اظهارنامه (3)
    • Thesis-final revision
    • Thesis-final revision (13)
      • 1. پیش‌گفتار (14)
        • 1-1. رباتیک و هوشمند‌سازی (14)
          • 1-1-1. پیش‌گفتاری بر رباتیک (14)
          • 1-1-2. ربات‌های هوشمند (16)
          • 1-1-3. یادگیری عمیق (DL) (18)
        • 1-2. یادگیری تقویتی (20)
          • 1-2-1. یادگیری تقویتی عمیق18F (DRL) (21)
          • 1-2-2. روش‌های یادگیری تقویتی (23)
        • 1-3. چالش‌های یادگیری تقویتی در رباتیک (27)
        • 1-4. پژوهش پیشنهادی (28)
      • 2. مفاهیم پایه (30)
        • 2-1. فرایند تصمیم‌گیری مارکوف محدود 32F (30)
          • 2-1-1. خاصیت مارکوف33F (31)
          • 2-1-2. زنجیره یا فرایند مارکوف (32)
          • 2-1-3. پاداش و نتایج (32)
          • 2-1-4. فرایند پاداش مارکوف38F (33)
          • 2-1-5. تابع ارزش39F و تابع سیاست40F (33)
          • 2-1-6. معادلهٔ بلمن42F برای تابع ارزش (34)
          • 2-1-7. فرایند تصمیم‌گیری مارکوف (35)
          • 2-1-8. جمع‌بندی (36)
        • 2-2. مروری بر الگوریتم‌های مهم در یادگیری تقویتی عمیق (37)
          • 2-2-1. الگوریتم‌های خانوادهٔ 47F Deep Deterministic Policy Gradient (DDPG) (38)
          • 2-2-2. الگوریتم Soft Actor-Critic (SAC) (39)
    • Thesis-final revision (40)
      • 2. مفاهیم پایه
        • 2-2. مروری بر الگوریتم‌های مهم در یادگیری تقویتی عمیق
          • 2-2-3. الگوریتمTruncated Quantile Critics (TQC) (41)
          • 2-2-4. الگوریتم Hindsight Experience Replay (HER) (45)
        • 2-3. شبکه‌های عصبی (47)
          • 2-3-1. پیش‌گفتار (47)
          • 2-3-2. شیوهٔ کلی کارکرد شبکه‌های عصبی (48)
    • Thesis-final revision (49)
      • 2. مفاهیم پایه
        • 2-3. شبکه‌های عصبی
          • 2-3-3. بهینه‌ساز ADAM (51)
      • 3. مرور ادبیات (54)
        • 3-1. پیش‌گفتار (54)
        • 3-2. کاربردهای یادگیری تقویتی عمیق در رباتیک (55)
        • 3-3. جمع‌بندی (60)
      • 4. مدل‌سازی محیط و عامل یادگیری تقویتی (62)
        • 4-1. پیش‌گفتار (62)
        • 4-2. محیط یادگیری تقویتی (63)
          • 4-2-1. تعریف ربات URDF (63)
          • 4-2-2. ربات پاندا (65)
          • 4-2-3. شبیه‌ساز فیزیکی Bullet (کتاب‌خانهٔ PyBullet) (67)
          • 4-2-4. کتاب‌خانهٔ OpenAI GYM (68)
          • 4-2-5. ربات تعریف‌شده برای پژوهش (70)
          • 4-2-6. تعریف سناریو و تابع پاداش (72)
          • 4-2-7. جمع‌بندی (73)
        • 4-3. عامل یادگیری تقویتی (74)
    • Thesis-final revision (76)
      • 5. نتیجه‌گیری (78)
        • 5-1. پیش‌گفتار (78)
        • 5-2. نتایج به دست آمده (79)
          • 5-2-1. میانگین پاداش (79)
          • 5-2-2. درصد موفقیت (80)
          • 5-2-3. عملکرد تابع پاداش (81)
          • 5-2-4. بررسی خروجی عامل (82)
          • 5-2-5. نقاط ضعف (85)
        • 5-3. پیشنهاد‌های پژوهشی آتی (85)
      • 6. مراجع و منابع (87)
    • Binder1.pdf
      • rl-paper-004 (93)
        • I. Introduction (93)
        • II. Preliminaries (93)
          • A. Reinforcement Learning (RL) (93)
          • B. Deep Reinforcement Learning (DRL) (94)
        • III. Environment (94)
          • A. Environemnt properties (94)
          • B. Task and Reward (95)
        • IV. Algorithm (95)
          • A. Truncated Quantile Critics (TQC) (95)
          • B. Hindsight Experience Replay (HER) (95)
          • C. Implementation (96)
        • V. Results (96)
        • VI. Discussion (96)
        • VII. Conclusions and Future Works (97)
          • References (97)
Loading...