Loading...

Robust Markov Decision Processes and Applications in Mathematical Finance

Soori, Mohammad | 2024

0 Viewed
  1. Type of Document: M.Sc. Thesis
  2. Language: Farsi
  3. Document No: 57559 (02)
  4. University: Sharif University of Technology
  5. Department: Mathematical Sciences
  6. Advisor(s): Fotouhi Firouzabadi, Morteza; Salavati, Erfan
  7. Abstract:
  8. Dynamic portfolio optimization is one of the prominent problems in financial mathematics, for which numerous theories have been proposed to solve it. One of the solutions to this problem is the use of reinforcement learning. The main challenge with this method is that most reinforcement learning algorithms require a large amount of data, and therefore, the necessary data is often obtained not from the real world, but through simulations by estimating the parameters of a model. However, the approximation error of the parameters can propagate through the final solution, leading to inaccurate results. One approach to addressing this issue is the use of robust Markov processes and robust reinforcement learning. By relying on the robustness of these methods, it is possible to control the propagation of parameter errors in the final distribution, thereby reaching a reasonable solution. This thesis, after reviewing all the necessary theoretical concepts from the literature on reinforcement learning, stochastic calculus, and financial mathematics, and focusing on some recent research in robust Markov processes, addresses the problem of dynamic portfolio optimization using these processes. It relies on financial mathematics models for simulation and data generation, and analyzes and evaluates the obtained results
  9. Keywords:
  10. Robust Optimization ; Portfolio Optimization ; Markov Decision Making ; Reinforcement Learning ; Stochastic Calculations ; Markowitz Theory ; Heston Model ; BlackScholes Model ; Robust Reinforcement Learning

 Digital Object List

 Bookmark

  • 6578a1b536fd4b6e36db3a914852e26c094ba59038bb65b975e778ddb79cfae3.pdf
  • 66db5f54d94beadae0cdd6bad47d5ca7afb8c20df709eb6e754e3fb9baff49e9.pdf
  • bfa9a798ff66831dc475aa1840d6f8c689a43f919ee25a1973dfb7a7c0b430c4.pdf
  • 6578a1b536fd4b6e36db3a914852e26c094ba59038bb65b975e778ddb79cfae3.pdf
    • فهرست اشکال
    • فهرست جداول
    • مساله‌ی بهینه‌سازی سبد سهام
      • مروری بر نظریه‌ی مارکویتز
        • تاریخچه‌ی نظریه‌ی مارکویتز
        • مدل دو مرحله‌ای سبد سهام
        • سنجه‌های ریسک مقدماتی
        • نمودار بازده-ریسک و بهینگی پاریتو برای سنجش سبدها
        • انتخاب سبد از بین دو دارایی
        • مروری بر روش بهینه‌سازی با ضرایب لاگرانژ
        • انتخاب سبد بهین از چند دارایی
        • برخی شاخص‌های ارزیابی
        • نقایص تئوری مارکویتز
      • بهینه‌سازی استوار سبد سهام
        • مقدمه
        • مجموعه‌های عدم قطعیت
        • انواع مجموعه‌های عدم قطعیت
        • نُرم دوگان
      • حل مسائل بهینه‌سازی استوار سبد در حالت خاص عدم قطعیت بیضوی
        • حل با استواری نسبت به بردار بازده و عدم قطعیت بیضوی
        • حل با استواری نسبت به ماتریس کوواریانس و عدم قطعیت بیضوی
      • حل مساله‌ی سبد کمترین واریانس استوار در عدم قطعیت کلی
        • بهینه‌سازی استوار با عدم قطعیت در بردار امید بازده‌ها
        • بهینه‌سازی استوار با عدم قطعیت در ماتریس کوواریانس
        • بهینه‌سازی استوار با عدم قطعیت در بردار امید بازده‌ها و ماتریس کوواریانس
      • رویکرد این پایان‌نامه
    • فرآیندهای تصمیم‌گیری مارکف متناهی
      • فرآیندهای تصمیم‌گیری مارکف و تابع ارزش
      • فضای هیلبرت فرآیندهای تصمیم‌گیری مارکف متناهی
      • معادله‌ی بلمن و عملگر بلمن
      • مبانی نظری یافتن سیاست بهین
        • قضیه‌ی نقطه ثابت باناخ
        • انقباضی بودن عملگر بلمن
      • الگوریتم تکرار ارزش
        • توضیحات الگوریتم
        • مبانی نظری
        • تقریب تابعی در تکرار ارزش
        • مزایای تکرار ارزش
        • چالش‌ها و محدودیت‌های تکرار ارزش
      • الگوریتم تکرار سیاست
        • توضیحات الگوریتم
        • مبانی نظری
        • ملاحظات محاسباتی
        • مزایای تکرار سیاست
        • چالش‌ها و محدودیت‌ها
      • مثال اول: بازی دوز تصادفی
        • نتایج شبیه‌سازی‌ها
      • مثال دوم: کشف الگوریتم‌های ضرب ماتریسی سریع‌تر
        • مقدمه: ضرب ماتریس و کارآیی الگوریتمی
        • تجزیه تانسور و نقش آن در ضرب ماتریس
        • فرمول‌بندی تجزیه تانسور به‌عنوان یک بازی
        • چارچوب یادگیری تقویتی: AlphaTensor
        • نتایج و تأثیرات
    • فرآیندهای تصمیم‌گیری مارکف استوار
      • فرآیندهای تصمیم‌گیری مارکف استوار (RMDPs)
        • نیاز به استوار‌سازی
        • فرمول‌بندی فرآیندهای تصمیم‌گیری مارکف استوار
      • فرآیندهای تصمیم‌گیری مارکف منظم‌سازی شده
        • فرم برنامه‌ریزی خطی فرآیندهای تصمیم‌گیری مارکف
        • فرآیندهای تصمیم‌گیری مارکف منظم‌شده
        • عملگرهای بلمن استوار
      • فرآیندهای تصمیم‌گیری مارکف استوار نسبت به پاداش
      • شبیه‌سازی
        • بازی شکار گنج
      • استوارسازی نسبت به پاداش‌ها با فرض بیضوی بودن مجموعه‌ی عدم قطعیت
        • فرآیندهای تصمیم‌گیری مارکف تماما استوار
      • جستاری بر ارتباط استواری و ریسک‌گریزی
        • فرمول‌بندی مسئله
        • فرآیندهای تصمیم‌گیری مارکف ریسک‌گریز
    • مدلسازی مساله، شبیه‌سازی و نتایج عددی
      • حل مسائل با چارچوب مارکویتز
        • بررسی نظری الگوریتم ارزیابی عملکرد روش‌ها
        • بررسی توزیع خی‌دو برای تخمین شعاع عدم قطعیت
        • مجموعه عدم قطعیت بیضوی برای بردار امید ریاضی بازده
        • تخمین عدم قطعیت بیضوی کوواریانس
        • تحلیل و پردازش داده‌ها
        • صندوق‌های قابل معامله در بورس (ETF)
        • نتایج آزمایشات
      • برآورد پارامترهای مدل بلک‌شولز و هستون از دیتا
        • مدل بلک-شولز: دینامیک قیمت دارایی و نوسان
        • نوسان ضمنی
        • نیاز به مدل‌های نوسان تصادفی
        • قیمت‌گذاری معامله اختیار در مدل هستون
        • بهینه‌سازی: کمینه‌سازی تابع هدف
        • نتایج تخمین
      • آموزش فرآیندهای تصمیم‌گیری مارکف برای حل مساله
      • پیشنهادات برای تحقیقات آینده
      • نتیجه‌گیری
    • منابع و مراجع
    • مروری بر مفاهیم حسابان تصادفی
      • مقدمه‌
        • تاریخچه و توسعه
        • اهمیت حسابان تصادفی
      • حرکت براونی
        • پیشینه تاریخی
        • تعریف و ویژگی‌های حرکت براونی
        • فرآیندهای گاوسی و حرکت براونی
        • قدم زدن تصادفی: حالت گسسته و گذار به حرکت براونی
        • ویژگی‌های ریاضیاتی حرکت براونی
        • مجموع تغییرات و ویژگی‌های مسیر حرکت براونی
        • انواع مختلف حرکت براونی و ویژگی‌های ریاضی آن‌ها
        • شبیه‌سازی حرکت براونی
      • سیگما-جبرها، پالایش و امید شرطی
        • سیگما-جبرها
        • پالایش‌ها
        • امید ریاضی شرطی
        • امید ریاضی شرطی در زمان پیوسته
        • اصول و قوانین امید ریاضی شرطی
      • مارتینگل‌ها در فرآیندهای تصادفی
        • تعریف و ویژگی‌های پایه‌ای
        • مارتینگل‌ها در زمان گسسته
        • مارتینگل‌ها در زمان پیوسته
        • قضیه نمایش مارتینگل
      • لم ایتو
        • حساب تغییرات و بسط تیلور
        • مقدمه‌ای بر فرآیندهای تصادفی و حسابان ایتو
        • لم ایتو: بیان و اثبات
        • مثال‌ها
      • انتگرال تصادفی
        • مقدمه‌ای بر انتگرال‌های تصادفی
        • انتگرال ایتو
        • ساختار و خواص انتگرال ایتو
        • تعمیم به فرآیندهای عمومی‌تر
        • انتگرال‌های تصادفی نسبت به نیمه‌مارتینگل‌های عمومی
      • معادلات دیفرانسیل تصادفی
        • مقدمه‌ای بر معادلات دیفرانسیل تصادفی (SDEs)
        • نابرابری گرونوال
        • وجود و یکتایی جواب‌های معادلات دیفرانسیل تصادفی
        • راه حل‌های تحلیلی معادلات دیفرانسیل تصادفی
        • روش‌های عددی برای معادلات دیفرانسیل تصادفی
        • معادلات دیفرانسیل تصادفی با مشتقات جزئی
        • وجود و یکتایی راه‌حل‌های SPDEs
        • روش‌های عددی برای SPDEs
      • برخی مباحث تکمیلی در نظریه احتمال
        • هم‌ارزی و پیوستگی مطلق اندازه‌های احتمال
        • قضیه‌ی رادون-نیکودیم
        • قضیه گیرسانوف
    • مروری بر ریاضیات مالی
      • نگاهی اجمالی به بازارهای مالی
      • تعریف ابزارهای مالی
        • ابزارهای مالی
        • ویژگی‌های کلیدی ابزارهای مالی
        • مثال‌هایی از ابزارهای مالی
      • مبانی ریاضیات مالی
        • استراتژی‌های معاملاتی خودتأمین
        • آربیتراژ و شرط عدم آربیتراژ
        • بازارهای کامل
        • اندازه احتمال ریسک‌خنثی
        • قضیه نمایش مارتینگل
      • قضایای بنیادی قیمت‌گذاری دارایی
        • حالت زمان گسسته
        • حالت زمان پیوسته
      • مدل و معادله‌ی بلک-شولز
        • مدل بلک-شولز: مفروضات و چارچوب
        • تشکیل معادله دیفرانسیل جزئی بلک-شولز با رویکرد سبد پوشش‌دهنده و شرط عدم آربیتراژ)
      • حل معادله‌ی بلک-شولز برای اختیارهای اروپایی
      • گسترش‌های مدل بلک-شولز
        • محدودیت‌های مدل بلک-شولز
        • مدل هِستون: تلاطم تصادفی
        • گسترش‌هایی برای در نظر گرفتن هزینه‌های معاملاتی
        • مدل‌هایی با نرخ‌های بهره‌ی تصادفی
        • مدل‌های گنجاننده‌ی پرش در قیمت دارایی‌ها
    • مروری بر یادگیری تقویتی
      • مقدمه
        • شرایط و قضیه‌ی رابینز-مونرو
        • کاوش و بهره‌برداری
        • تحلیل مقایسه‌ای راهبردهای اکتشاف
        • تقسیم‌بندی‌های روش‌های یادگیری تقویتی بر اساس مدل
        • تقسیم‌بندی‌های روش‌های یادگیری تقویتی بر اساس سیاست
        • تقسیم‌بندی‌های روش‌های یادگیری تقویتی بر اساس توابع
        • یادگیری تقویتی عمیق
      • روش‌های مبتنی بر ارزش در یادگیری تقویتی
        • روش‌های مونته کارلو
        • یادگیری تفاوت زمانی (TD)
        • الگوریتم SARSA
        • کیو-یادگیری
      • روش‌های مبتنی بر سیاست در یادگیری تقویتی
        • مروری بر مفاهیم اولیه روش‌های مبتنی بر سیاست
        • الگوریتم REINFORCE
      • روش‌های بازیگر-منتقد
        • اجزای بازیگر و منتقد
        • A2C (بازیگر-منتقد مزیتی)
        • الگوریتم: بازیگر-منتقد مزیتی (A2C)
        • روش SAC (بازیگر-منتقد نرم)
        • A3C (بازیگر-منتقد مزیتی ناهمگام)
    • مدلسازی بازی دوز تصادفی
      • فضای حالت
      • فضای تصمیمات و تصمیمات مجاز
      • تابع پاداش
        • چند عملگر کمکی
      • اصلاحی بر اکشن‌های مجاز و فضای حالت
      • مدل‌سازی بازی و معادله بلمن
        • بازی در حضور ریسک
        • معادله بلمن
        • بررسی انقباضی بودن عملگر و ارائه روش عددی برای Value Iteration
    • حل مساله‌ی بهینه‌سازی استوار با عدم قطعیت واسراشتاین نسبت به ماتریس کوواریانس
      • تشریح مسئله
        • معرفی مساله‌ی انتقال بهین
        • فرمول‌بندی دوگان انتقال بهین
        • فرمول‌بندی واریاسیونی و ارتباط آن با OTP
        • حل مساله‌ی بهینه‌سازی سبد استوار با شبکه‌های عصبی
        • نتایج شبیه‌سازی
    • کد پیاده‌سازی
    • واژه‌نامه‌ی فارسی به انگلیسی
    • واژه‌نامه‌ی انگلیسی به فارسی
...see more