Loading...

Visual Question Answering

Salari, Arsalan | 2021

563 Viewed
  1. Type of Document: M.Sc. Thesis
  2. Language: Farsi
  3. Document No: 53725 (19)
  4. University: Sharif University of Technology
  5. Department: Computer Engineering
  6. Advisor(s): Manzuri, Mohammad Taghi
  7. Abstract:
  8. Visual Question Answering (VQA) deep-learning systems tend to capture superficial statistical correlations in the training data because of strong language priors and fail to generalize to test data with a significantly different question-answer(QA) distribution. To address this issue, we introduce a Visually Directed Question Encoder to replace the commonly used RNNs in base models. our method uses visual features alongside word embeddings of question words to encode each word. As a result, the model is forced to look at the visual information relevant to each word and it no longer produces answers based on just the question itself. We evaluate our approach on the VQA generalization task using the VQA-CP dataset, achieving a 10.88 percent improvement when using UpDn as the base model
  9. Keywords:
  10. Visual Question Answering ; Bias ; Deep Learning ; Unsupervised Learning

 Digital Object List

 Bookmark

  • 1 تعریف مسئله و مفاهیم مقدماتی
    • 1.1 مسائل حوزه‌های متن و تصویر
      • 1.1.1 دسته‌بندی تصویر
      • 1.1.2 آشکار‌سازی اشیاء
      • 1.1.3 بخش بندی معنایی تصویر
      • 1.1.4 بخش‌بندی نمونه‌ای
      • 1.1.5 پاسخگویی به سوالات
      • 1.1.6 عنوان‌گذاری تصویر
    • 1.2 پاسخگویی سوالات تصویری
      • 1.2.1 اهمیت موضوع و کاربرد‌ها
      • 1.2.2 ارتباط پاسخگویی سوالات تصویری با دیگر مسائل حوزه متن و تصویر
      • 1.2.3 چالش‌ها و مشکلات
    • 1.3 جمع‌بندی
  • 2 مروری بر مفاهیم پایه
    • 2.1 یادگیری عمیق
      • 2.1.1 تاریخچه یادگیری عمیق
      • 2.1.2 شبکه‌های عصبی مصنوعی
      • 2.1.3 روش‌های یادگیری
      • 2.1.4 طراحی و آموزش شبکه‌ها عصبی عمیق
      • 2.1.5 تابع خطا
      • 2.1.6 الگوریتم پس‌انتشار خطا
      • 2.1.7 الگوریتم‌های بهینه‌سازی
      • 2.1.8 مشکلات شبکه‌های عصبی عمیق
    • 2.2 شبکه عصبی بازگشتی
      • 2.2.1 شبکه عصبی بازگشتی دوجهته
      • 2.2.2 حافظه طولانی کوتاه-مدت
      • 2.2.3 واحد دروازه‌بندی‌شده بازگشتی
    • 2.3 توجه
      • 2.3.1 توجه به خود
      • 2.3.2 توجه نرم و سخت
    • 2.4 ترنسفرمر
      • 2.4.1 توجه ضرب نقطه‌ای متناسب شده
      • 2.4.2 توجه چند سر
      • 2.4.3 بخش‌های رمزگذار و رمزگشا
      • 2.4.4 رمزگذاری مکانی
    • 2.5 جمع‌بندی
  • 3 مرور ادبیات مسئله
    • 3.1 مجموعه دادگان مسئله
      • 3.1.1 DAQUAR
      • 3.1.2 COCO-QA
      • 3.1.3 VQA
      • 3.1.4 CLEVR
      • 3.1.5 GQA
    • 3.2 معیار‌های ارزیابی
    • 3.3 الگوریتم‌های مسئله پاسخگویی سوالات تصویری
      • 3.3.1 استخراج ویژگی‌های تصویری و متنی
      • 3.3.2 روش‌های ترکیب ویژگی‌ها و تولید پاسخ
    • 3.4 گرایش و عدم یادگیری واقعی در پاسخگویی سوالات تصویری
    • 3.5 جمع‌بندی
  • 4 آزمایش‌های انجام شده
    • 4.1 مدل پیشنهادی
      • 4.1.1 سلول رسوت
      • 4.1.2 نحوه استفاده از رسوت
    • 4.2 آزمایش‌ها
      • 4.2.1 شرایط آزمایش‌ها
      • 4.2.2 مقایسه با دیگر مدل‌های روز
      • 4.2.3 ارزیابی مدل بر روی مجموعه دادگان VQA
      • 4.2.4 مدل‌های پایه دیگر
    • 4.3 جمع بندی
  • 5 نتیجه‌گیری و کارهای آتی
    • 5.1 نتیجه گیری
    • 5.2 مشکلات، پیشنهادات و کارهای آتی
  • مراجع
  • واژه‌نامه‌ی فارسی به انگلیسی
  • واژه‌نامه‌ی انگلیسی به فارسی
...see more