Loading...
Efficient Implementation of Compressed Deep Convolutional Neural Networks
Afshar, Mohammad | 2018
1614
Viewed
- Type of Document: M.Sc. Thesis
- Language: Farsi
- Document No: 50727 (05)
- University: Sharif University of Technology
- Department: Electrical Engineering
- Advisor(s): Hashemi, Matin
- Abstract:
- Many mobile applications running on smartphones, wearable devices, tiny autonomous robots and IoT devices would potentially benefit from the accuracy and scalability of deep CNN-based machine learning algorithms. However,performance and energy consumption limitations make the execution of such computationally intensive algorithms on embedded mobile devices prohibitive.We present a GPU-accelerated engine, dubbed mCNN, for execution of trained deep CNNs on mobile platforms. The proposed solution takes the trained model as input and automatically optimizes its parallel implementation on the target mobile platform for efficient use of hardware resources such as mobile GPU threads and SIMD units. Empirical evaluations show that our solution achieves upto 500X speedup
- Keywords:
- Neural Network ; Convolutional Neural Network ; Increasing Efficiency ; Graphics Procssing Unit (GPU) ; Graphics Procssing Unit (GPU) ; Deep Convolutional Neural Networks
-
محتواي کتاب
- view
- مقدمه
- بررسی کارهای پیشین
- پیادهسازی بر اساس تراشههای ASIC
- پیادهسازی بر اساس تراشههای FPGA
- پیادهسازی بر اساس تراشههای سیستمهای موبایل
- ساختار پایاننامه
- بررسی کارهای پیشین
- واحد پردازش گرافیکی
- GPUهای موبایل
- GPUهای همهمنظوره
- چارچوبهای موجود برای GPGPU موبایل
- OpenGL
- OpenCL
- RenderScript
- Metal
- CUDA
- یادگیری عمیق
- شبکههای عصبی کانولوشنی
- معماری شبکههای کانولوشنی
- معرفی لایههای شبکهی عصبی کانولوشنی
- لایهی کانولوشن
- لایهی نمونهبردار کاهنده
- لایهی تماماً متصل
- لایهی RELU
- لایهی LRN
- لایهی Softmax
- معرفی چند شبکهی عصبی کانولوشنی
- شبکهی AlexNet
- شبکهی VGG-Net
- شبکهی googleNet
- شبکهی SqueezeNet
- شبکههای عصبی کانولوشنی
- پیادهسازی شبکهی عصبی کانولوشنی برروی GPU موبایل
- پیادهسازی سریال لایهی کانولوشن
- پیادهسازی موازی لایهی کانولوشن
- جزئیات پیادهسازی با زبان Renderscript
- الگوریتمA (S1T1P1)
- الگوریتمB (S1TmP1)
- الگوریتمC (SnTmP1)
- الگوریتمD (S1T1P2)
- پیادهسازی سریال لایهی نمونه بردار کاهنده
- پیادهسازی موازی لایهی نمونهبردار کاهنده
- پیادهسازی سریال لایهی تماماً متصل
- پیادهسازی موازی لایهی تماماً متصل
- پیادهسازی لایهی RELU
- استقرار مدل
- نتایج
- سختافزار مورد استفاده
- شبکهی مورد استفاده
- نتایج پیاده سازی
- مقایسه با کارهای پیشین
- جمعبندی و پیشنهاد ادامه کار
- دستاوردهای این پایاننامه
- پیشنهادهای ادامه کار
- toمنابع و مراجع