Loading...

Efficient Implementation of Compressed Deep Convolutional Neural Networks

Afshar, Mohammad | 2018

1614 Viewed
  1. Type of Document: M.Sc. Thesis
  2. Language: Farsi
  3. Document No: 50727 (05)
  4. University: Sharif University of Technology
  5. Department: Electrical Engineering
  6. Advisor(s): Hashemi, Matin
  7. Abstract:
  8. Many mobile applications running on smartphones, wearable devices, tiny autonomous robots and IoT devices would potentially benefit from the accuracy and scalability of deep CNN-based machine learning algorithms. However,performance and energy consumption limitations make the execution of such computationally intensive algorithms on embedded mobile devices prohibitive.We present a GPU-accelerated engine, dubbed mCNN, for execution of trained deep CNNs on mobile platforms. The proposed solution takes the trained model as input and automatically optimizes its parallel implementation on the target mobile platform for efficient use of hardware resources such as mobile GPU threads and SIMD units. Empirical evaluations show that our solution achieves upto 500X speedup
  9. Keywords:
  10. Neural Network ; Convolutional Neural Network ; Increasing Efficiency ; Graphics Procssing Unit (GPU) ; Graphics Procssing Unit (GPU) ; Deep Convolutional Neural Networks

 Digital Object List

 Bookmark

  • مقدمه
    • بررسی کارهای پیشین
      • پیاده‌سازی بر اساس تراشه‌های ASIC
      • پیاده‌سازی بر اساس تراشه‌های FPGA
      • پیاده‌سازی بر اساس تراشه‌های سیستم‌های موبایل
    • ساختار پایان‌نامه
  • واحد پردازش گرافیکی
    • GPUهای موبایل
    • GPUهای همه‌منظوره
    • چارچوب‌های موجود برای GPGPU موبایل
      • OpenGL
      • OpenCL
      • RenderScript
      • Metal
      • CUDA
  • یادگیری عمیق
    • شبکه‌های عصبی کانولوشنی
      • معماری شبکه‌های کانولوشنی
    • معرفی لایه‌های شبکه‌ی عصبی کانولوشنی
      • لایه‌ی کانولوشن
      • لایه‌ی نمونه‌بردار کاهنده
      • لایه‌ی تماماً متصل
      • لایه‌ی RELU
      • لایه‌ی LRN
      • لایه‌ی Softmax
    • معرفی چند شبکه‌ی عصبی کانولوشنی
      • شبکه‌ی AlexNet
      • شبکه‌ی VGG-Net
      • شبکه‌ی googleNet
      • شبکه‌ی SqueezeNet
  • پیاده‌سازی شبکه‌ی عصبی کانولوشنی برروی GPU موبایل
    • پیاده‌سازی سریال لایه‌ی کانولوشن
    • پیاده‌سازی موازی لایه‌ی کانولوشن
      • جزئیات پیاده‌سازی با زبان Renderscript
      • الگوریتمA (S1T1P1)
      • الگوریتمB (S1TmP1)
      • الگوریتمC (SnTmP1)
      • الگوریتمD (S1T1P2)
    • پیاده‌سازی سریال لایه‌ی نمونه بردار کاهنده
    • پیاده‌سازی موازی لایه‌ی نمونه‌بردار کاهنده
    • پیاده‌سازی سریال لایه‌ی تماماً متصل
    • پیاده‌سازی موازی لایه‌ی تماماً متصل
    • پیاده‌سازی لایه‌ی RELU
    • استقرار مدل
  • نتایج
    • سخت‌افزار مورد استفاده
    • شبکه‌ی مورد استفاده
    • نتایج پیاده سازی
    • مقایسه با کارهای پیشین
  • جمع‌بندی و پیشنهاد ادامه کار
    • دستاوردهای این پایان‌نامه
    • پیشنهاد‌های ادامه کار
  • toمنابع و مراجع
...see more