Loading...
- Type of Document: M.Sc. Thesis
- Language: Farsi
- Document No: 53725 (19)
- University: Sharif University of Technology
- Department: Computer Engineering
- Advisor(s): Manzuri, Mohammad Taghi
- Abstract:
- Visual Question Answering (VQA) deep-learning systems tend to capture superficial statistical correlations in the training data because of strong language priors and fail to generalize to test data with a significantly different question-answer(QA) distribution. To address this issue, we introduce a Visually Directed Question Encoder to replace the commonly used RNNs in base models. our method uses visual features alongside word embeddings of question words to encode each word. As a result, the model is forced to look at the visual information relevant to each word and it no longer produces answers based on just the question itself. We evaluate our approach on the VQA generalization task using the VQA-CP dataset, achieving a 10.88 percent improvement when using UpDn as the base model
- Keywords:
- Visual Question Answering ; Bias ; Deep Learning ; Unsupervised Learning
-
محتواي کتاب
- view
- 1 تعریف مسئله و مفاهیم مقدماتی
- 1.1 مسائل حوزههای متن و تصویر
- 1.1.1 دستهبندی تصویر
- 1.1.2 آشکارسازی اشیاء
- 1.1.3 بخش بندی معنایی تصویر
- 1.1.4 بخشبندی نمونهای
- 1.1.5 پاسخگویی به سوالات
- 1.1.6 عنوانگذاری تصویر
- 1.2 پاسخگویی سوالات تصویری
- 1.2.1 اهمیت موضوع و کاربردها
- 1.2.2 ارتباط پاسخگویی سوالات تصویری با دیگر مسائل حوزه متن و تصویر
- 1.2.3 چالشها و مشکلات
- 1.3 جمعبندی
- 1.1 مسائل حوزههای متن و تصویر
- 2 مروری بر مفاهیم پایه
- 2.1 یادگیری عمیق
- 2.1.1 تاریخچه یادگیری عمیق
- 2.1.2 شبکههای عصبی مصنوعی
- 2.1.3 روشهای یادگیری
- 2.1.4 طراحی و آموزش شبکهها عصبی عمیق
- 2.1.5 تابع خطا
- 2.1.6 الگوریتم پسانتشار خطا
- 2.1.7 الگوریتمهای بهینهسازی
- 2.1.8 مشکلات شبکههای عصبی عمیق
- 2.2 شبکه عصبی بازگشتی
- 2.2.1 شبکه عصبی بازگشتی دوجهته
- 2.2.2 حافظه طولانی کوتاه-مدت
- 2.2.3 واحد دروازهبندیشده بازگشتی
- 2.3 توجه
- 2.3.1 توجه به خود
- 2.3.2 توجه نرم و سخت
- 2.4 ترنسفرمر
- 2.4.1 توجه ضرب نقطهای متناسب شده
- 2.4.2 توجه چند سر
- 2.4.3 بخشهای رمزگذار و رمزگشا
- 2.4.4 رمزگذاری مکانی
- 2.5 جمعبندی
- 2.1 یادگیری عمیق
- 3 مرور ادبیات مسئله
- 3.1 مجموعه دادگان مسئله
- 3.1.1 DAQUAR
- 3.1.2 COCO-QA
- 3.1.3 VQA
- 3.1.4 CLEVR
- 3.1.5 GQA
- 3.2 معیارهای ارزیابی
- 3.3 الگوریتمهای مسئله پاسخگویی سوالات تصویری
- 3.3.1 استخراج ویژگیهای تصویری و متنی
- 3.3.2 روشهای ترکیب ویژگیها و تولید پاسخ
- 3.4 گرایش و عدم یادگیری واقعی در پاسخگویی سوالات تصویری
- 3.5 جمعبندی
- 3.1 مجموعه دادگان مسئله
- 4 آزمایشهای انجام شده
- 4.1 مدل پیشنهادی
- 4.1.1 سلول رسوت
- 4.1.2 نحوه استفاده از رسوت
- 4.2 آزمایشها
- 4.2.1 شرایط آزمایشها
- 4.2.2 مقایسه با دیگر مدلهای روز
- 4.2.3 ارزیابی مدل بر روی مجموعه دادگان VQA
- 4.2.4 مدلهای پایه دیگر
- 4.3 جمع بندی
- 4.1 مدل پیشنهادی
- 5 نتیجهگیری و کارهای آتی
- 5.1 نتیجه گیری
- 5.2 مشکلات، پیشنهادات و کارهای آتی
- مراجع
- واژهنامهی فارسی به انگلیسی
- واژهنامهی انگلیسی به فارسی
