Sharif Digital Repository / Sharif University of Technology
    • [Zoom In]
    • [Zoom Out]
  • Page 
     of  0
  • [Previous Page]
  • [Next Page]
  • [Fullscreen view]
  • [Close]
 
کنترل بهینهٔ یک سامانهٔ رباتیکی بر اساس الگوریتم‌ یادگیری تقویتی عمیق
خادم حقیقیان، بهراد Khadem Haqiqiyan, Behrad

Cataloging brief

Cobalt based Metal Organic Framework/Graphene nanocomposite as high performance battery-type electrode materials for asymmetric Supercapacitors
Author :   Azadfalah, M
Publisher :   Elsevier Ltd
Pub. Year  :   2020
Subjects :   Advanced electrode materials Asymmetric supercapacitors Energy storage and conversion...
Call Number :  

Find in content

sort by

Bookmark

  • Binder1 (1)
    • Thesis-final revision (1)
    • 2اظهارنامه (3)
    • Thesis-final revision
    • Thesis-final revision (13)
      • 1. پیش‌گفتار (14)
        • 1-1. رباتیک و هوشمند‌سازی (14)
          • 1-1-1. پیش‌گفتاری بر رباتیک (14)
          • 1-1-2. ربات‌های هوشمند (16)
          • 1-1-3. یادگیری عمیق (DL) (18)
        • 1-2. یادگیری تقویتی (20)
          • 1-2-1. یادگیری تقویتی عمیق18F (DRL) (21)
          • 1-2-2. روش‌های یادگیری تقویتی (23)
        • 1-3. چالش‌های یادگیری تقویتی در رباتیک (27)
        • 1-4. پژوهش پیشنهادی (28)
      • 2. مفاهیم پایه (30)
        • 2-1. فرایند تصمیم‌گیری مارکوف محدود 32F (30)
          • 2-1-1. خاصیت مارکوف33F (31)
          • 2-1-2. زنجیره یا فرایند مارکوف (32)
          • 2-1-3. پاداش و نتایج (32)
          • 2-1-4. فرایند پاداش مارکوف38F (33)
          • 2-1-5. تابع ارزش39F و تابع سیاست40F (33)
          • 2-1-6. معادلهٔ بلمن42F برای تابع ارزش (34)
          • 2-1-7. فرایند تصمیم‌گیری مارکوف (35)
          • 2-1-8. جمع‌بندی (36)
        • 2-2. مروری بر الگوریتم‌های مهم در یادگیری تقویتی عمیق (37)
          • 2-2-1. الگوریتم‌های خانوادهٔ 47F Deep Deterministic Policy Gradient (DDPG) (38)
          • 2-2-2. الگوریتم Soft Actor-Critic (SAC) (39)
    • Thesis-final revision (40)
      • 2. مفاهیم پایه
        • 2-2. مروری بر الگوریتم‌های مهم در یادگیری تقویتی عمیق
          • 2-2-3. الگوریتمTruncated Quantile Critics (TQC) (41)
          • 2-2-4. الگوریتم Hindsight Experience Replay (HER) (45)
        • 2-3. شبکه‌های عصبی (47)
          • 2-3-1. پیش‌گفتار (47)
          • 2-3-2. شیوهٔ کلی کارکرد شبکه‌های عصبی (48)
    • Thesis-final revision (49)
      • 2. مفاهیم پایه
        • 2-3. شبکه‌های عصبی
          • 2-3-3. بهینه‌ساز ADAM (51)
      • 3. مرور ادبیات (54)
        • 3-1. پیش‌گفتار (54)
        • 3-2. کاربردهای یادگیری تقویتی عمیق در رباتیک (55)
        • 3-3. جمع‌بندی (60)
      • 4. مدل‌سازی محیط و عامل یادگیری تقویتی (62)
        • 4-1. پیش‌گفتار (62)
        • 4-2. محیط یادگیری تقویتی (63)
          • 4-2-1. تعریف ربات URDF (63)
          • 4-2-2. ربات پاندا (65)
          • 4-2-3. شبیه‌ساز فیزیکی Bullet (کتاب‌خانهٔ PyBullet) (67)
          • 4-2-4. کتاب‌خانهٔ OpenAI GYM (68)
          • 4-2-5. ربات تعریف‌شده برای پژوهش (70)
          • 4-2-6. تعریف سناریو و تابع پاداش (72)
          • 4-2-7. جمع‌بندی (73)
        • 4-3. عامل یادگیری تقویتی (74)
    • Thesis-final revision (76)
      • 5. نتیجه‌گیری (78)
        • 5-1. پیش‌گفتار (78)
        • 5-2. نتایج به دست آمده (79)
          • 5-2-1. میانگین پاداش (79)
          • 5-2-2. درصد موفقیت (80)
          • 5-2-3. عملکرد تابع پاداش (81)
          • 5-2-4. بررسی خروجی عامل (82)
          • 5-2-5. نقاط ضعف (85)
        • 5-3. پیشنهاد‌های پژوهشی آتی (85)
      • 6. مراجع و منابع (87)
    • Binder1.pdf
      • rl-paper-004 (93)
        • I. Introduction (93)
        • II. Preliminaries (93)
          • A. Reinforcement Learning (RL) (93)
          • B. Deep Reinforcement Learning (DRL) (94)
        • III. Environment (94)
          • A. Environemnt properties (94)
          • B. Task and Reward (95)
        • IV. Algorithm (95)
          • A. Truncated Quantile Critics (TQC) (95)
          • B. Hindsight Experience Replay (HER) (95)
          • C. Implementation (96)
        • V. Results (96)
        • VI. Discussion (96)
        • VII. Conclusions and Future Works (97)
          • References (97)
Loading...