Please enable javascript in your browser.
Page
of
0
توسعه مدل ارزیابی نقش منابع انرژی و ارتباط انرژی با اقتصاد
عادل برخوردار، زهرا Adel Barkhordar, Zahra
Cataloging brief
توسعه مدل ارزیابی نقش منابع انرژی و ارتباط انرژی با اقتصاد
پدیدآور اصلی :
عادل برخوردار، زهرا Adel Barkhordar, Zahra
ناشر :
صنعتی شریف
سال انتشار :
1392
موضوع ها :
منابع پایان پذیر انرژی Exhaustible Energy Resources اعتبار سنجی Validation تعادل عمومی...
شماره راهنما :
08-45833
Find in content
sort by
page number
page score
Bookmark
Binder1
(1)
Thesis-final revision
(1)
2اظهارنامه
(3)
Thesis-final revision
Thesis-final revision
(13)
1. پیشگفتار
(14)
1-1. رباتیک و هوشمندسازی
(14)
1-1-1. پیشگفتاری بر رباتیک
(14)
1-1-2. رباتهای هوشمند
(16)
1-1-3. یادگیری عمیق (DL)
(18)
1-2. یادگیری تقویتی
(20)
1-2-1. یادگیری تقویتی عمیق18F (DRL)
(21)
1-2-2. روشهای یادگیری تقویتی
(23)
1-3. چالشهای یادگیری تقویتی در رباتیک
(27)
1-4. پژوهش پیشنهادی
(28)
2. مفاهیم پایه
(30)
2-1. فرایند تصمیمگیری مارکوف محدود 32F
(30)
2-1-1. خاصیت مارکوف33F
(31)
2-1-2. زنجیره یا فرایند مارکوف
(32)
2-1-3. پاداش و نتایج
(32)
2-1-4. فرایند پاداش مارکوف38F
(33)
2-1-5. تابع ارزش39F و تابع سیاست40F
(33)
2-1-6. معادلهٔ بلمن42F برای تابع ارزش
(34)
2-1-7. فرایند تصمیمگیری مارکوف
(35)
2-1-8. جمعبندی
(36)
2-2. مروری بر الگوریتمهای مهم در یادگیری تقویتی عمیق
(37)
2-2-1. الگوریتمهای خانوادهٔ 47F Deep Deterministic Policy Gradient (DDPG)
(38)
2-2-2. الگوریتم Soft Actor-Critic (SAC)
(39)
Thesis-final revision
(40)
2. مفاهیم پایه
2-2. مروری بر الگوریتمهای مهم در یادگیری تقویتی عمیق
2-2-3. الگوریتمTruncated Quantile Critics (TQC)
(41)
2-2-4. الگوریتم Hindsight Experience Replay (HER)
(45)
2-3. شبکههای عصبی
(47)
2-3-1. پیشگفتار
(47)
2-3-2. شیوهٔ کلی کارکرد شبکههای عصبی
(48)
Thesis-final revision
(49)
2. مفاهیم پایه
2-3. شبکههای عصبی
2-3-3. بهینهساز ADAM
(51)
3. مرور ادبیات
(54)
3-1. پیشگفتار
(54)
3-2. کاربردهای یادگیری تقویتی عمیق در رباتیک
(55)
3-3. جمعبندی
(60)
4. مدلسازی محیط و عامل یادگیری تقویتی
(62)
4-1. پیشگفتار
(62)
4-2. محیط یادگیری تقویتی
(63)
4-2-1. تعریف ربات URDF
(63)
4-2-2. ربات پاندا
(65)
4-2-3. شبیهساز فیزیکی Bullet (کتابخانهٔ PyBullet)
(67)
4-2-4. کتابخانهٔ OpenAI GYM
(68)
4-2-5. ربات تعریفشده برای پژوهش
(70)
4-2-6. تعریف سناریو و تابع پاداش
(72)
4-2-7. جمعبندی
(73)
4-3. عامل یادگیری تقویتی
(74)
Thesis-final revision
(76)
5. نتیجهگیری
(78)
5-1. پیشگفتار
(78)
5-2. نتایج به دست آمده
(79)
5-2-1. میانگین پاداش
(79)
5-2-2. درصد موفقیت
(80)
5-2-3. عملکرد تابع پاداش
(81)
5-2-4. بررسی خروجی عامل
(82)
5-2-5. نقاط ضعف
(85)
5-3. پیشنهادهای پژوهشی آتی
(85)
6. مراجع و منابع
(87)
Binder1.pdf
rl-paper-004
(93)
I. Introduction
(93)
II. Preliminaries
(93)
A. Reinforcement Learning (RL)
(93)
B. Deep Reinforcement Learning (DRL)
(94)
III. Environment
(94)
A. Environemnt properties
(94)
B. Task and Reward
(95)
IV. Algorithm
(95)
A. Truncated Quantile Critics (TQC)
(95)
B. Hindsight Experience Replay (HER)
(95)
C. Implementation
(96)
V. Results
(96)
VI. Discussion
(96)
VII. Conclusions and Future Works
(97)
References
(97)