Please enable javascript in your browser.
Page
of
0
کنترل بهینهٔ یک سامانهٔ رباتیکی بر اساس الگوریتم یادگیری تقویتی عمیق
خادم حقیقیان، بهراد Khadem Haqiqiyan, Behrad
Cataloging brief
Cobalt based Metal Organic Framework/Graphene nanocomposite as high performance battery-type electrode materials for asymmetric Supercapacitors
Author :
Azadfalah, M
Publisher :
Elsevier Ltd
Pub. Year :
2020
Subjects :
Advanced electrode materials Asymmetric supercapacitors Energy storage and conversion...
Call Number :
Find in content
sort by
page number
page score
Bookmark
Binder1
(1)
Thesis-final revision
(1)
2اظهارنامه
(3)
Thesis-final revision
Thesis-final revision
(13)
1. پیشگفتار
(14)
1-1. رباتیک و هوشمندسازی
(14)
1-1-1. پیشگفتاری بر رباتیک
(14)
1-1-2. رباتهای هوشمند
(16)
1-1-3. یادگیری عمیق (DL)
(18)
1-2. یادگیری تقویتی
(20)
1-2-1. یادگیری تقویتی عمیق18F (DRL)
(21)
1-2-2. روشهای یادگیری تقویتی
(23)
1-3. چالشهای یادگیری تقویتی در رباتیک
(27)
1-4. پژوهش پیشنهادی
(28)
2. مفاهیم پایه
(30)
2-1. فرایند تصمیمگیری مارکوف محدود 32F
(30)
2-1-1. خاصیت مارکوف33F
(31)
2-1-2. زنجیره یا فرایند مارکوف
(32)
2-1-3. پاداش و نتایج
(32)
2-1-4. فرایند پاداش مارکوف38F
(33)
2-1-5. تابع ارزش39F و تابع سیاست40F
(33)
2-1-6. معادلهٔ بلمن42F برای تابع ارزش
(34)
2-1-7. فرایند تصمیمگیری مارکوف
(35)
2-1-8. جمعبندی
(36)
2-2. مروری بر الگوریتمهای مهم در یادگیری تقویتی عمیق
(37)
2-2-1. الگوریتمهای خانوادهٔ 47F Deep Deterministic Policy Gradient (DDPG)
(38)
2-2-2. الگوریتم Soft Actor-Critic (SAC)
(39)
Thesis-final revision
(40)
2. مفاهیم پایه
2-2. مروری بر الگوریتمهای مهم در یادگیری تقویتی عمیق
2-2-3. الگوریتمTruncated Quantile Critics (TQC)
(41)
2-2-4. الگوریتم Hindsight Experience Replay (HER)
(45)
2-3. شبکههای عصبی
(47)
2-3-1. پیشگفتار
(47)
2-3-2. شیوهٔ کلی کارکرد شبکههای عصبی
(48)
Thesis-final revision
(49)
2. مفاهیم پایه
2-3. شبکههای عصبی
2-3-3. بهینهساز ADAM
(51)
3. مرور ادبیات
(54)
3-1. پیشگفتار
(54)
3-2. کاربردهای یادگیری تقویتی عمیق در رباتیک
(55)
3-3. جمعبندی
(60)
4. مدلسازی محیط و عامل یادگیری تقویتی
(62)
4-1. پیشگفتار
(62)
4-2. محیط یادگیری تقویتی
(63)
4-2-1. تعریف ربات URDF
(63)
4-2-2. ربات پاندا
(65)
4-2-3. شبیهساز فیزیکی Bullet (کتابخانهٔ PyBullet)
(67)
4-2-4. کتابخانهٔ OpenAI GYM
(68)
4-2-5. ربات تعریفشده برای پژوهش
(70)
4-2-6. تعریف سناریو و تابع پاداش
(72)
4-2-7. جمعبندی
(73)
4-3. عامل یادگیری تقویتی
(74)
Thesis-final revision
(76)
5. نتیجهگیری
(78)
5-1. پیشگفتار
(78)
5-2. نتایج به دست آمده
(79)
5-2-1. میانگین پاداش
(79)
5-2-2. درصد موفقیت
(80)
5-2-3. عملکرد تابع پاداش
(81)
5-2-4. بررسی خروجی عامل
(82)
5-2-5. نقاط ضعف
(85)
5-3. پیشنهادهای پژوهشی آتی
(85)
6. مراجع و منابع
(87)
Binder1.pdf
rl-paper-004
(93)
I. Introduction
(93)
II. Preliminaries
(93)
A. Reinforcement Learning (RL)
(93)
B. Deep Reinforcement Learning (DRL)
(94)
III. Environment
(94)
A. Environemnt properties
(94)
B. Task and Reward
(95)
IV. Algorithm
(95)
A. Truncated Quantile Critics (TQC)
(95)
B. Hindsight Experience Replay (HER)
(95)
C. Implementation
(96)
V. Results
(96)
VI. Discussion
(96)
VII. Conclusions and Future Works
(97)
References
(97)