Improving Text-Video Retrieval Models using Language Models

Haghighi Naeini, Parsa; Rabiee, Hamid Reza

Please enable javascript in your browser.

Improving Text-Video Retrieval Models using Language Models

Haghighi Naeini, Parsa | 2024

0 Viewed

Type of Document: M.Sc. Thesis
Language: Farsi
Document No: 57195 (19)
University: Sharif University of Technology
Department: Computer Engineering
Advisor(s): Rabiee, Hamid Reza
Abstract:
Models specifically designed for images are widely used in various video understanding tasks, including text-to-video retrieval. For this purpose, videos are viewed as sequences of frames. Most models uniformly select a few frames from each video and pass them to the image-specific model. While simple, this method often results in the selection of repetitive or irrelevant frames. Several trainable frame samplers have been introduced, but none can select important and diverse frames. In this study, we propose a teacher-student pipeline for training a frame sampler tailored for the text-to-video retrieval task. In this pipeline, frame-to-frame and frame-to-description similarities obtained by a vision-language model are taught to the student model. Our main hypothesis is that more important frames are described more frequently in the description of a video. Thus, we use the similarity score of each frame to the descriptive text as an indicator of its importance. Additionally, observing the power of vision-language models in semantically recognizing similar images, we propose a secondary loss function to train our model's backbone using frame-to-frame similarities provided by a vision-language model. This approach not only improves the model's performance in assigning close importance scores to similar frames but also leverages these learned similarities during inference to select diverse frames. In the experiments conducted in this study, we used our frame sampler as the initial component of several SOTA text-to-video retrieval models on two datasets, MSR-VTT and ActivityNet. The results of these experiments demonstrated that selecting more important and diverse frames significantly improved the downstream performance of these models. For long videos in ActivityNet, which were the primary target for our frame sampler, selecting important frames resulted in a 2% improvement in R@1, while selecting both important and diverse frames led to an approximately 4% improvement. Additionally, we propose a dataset as a valuable resource for pre-training video summarization models. Pre-training several video summarization models on our dataset has shown that using this dataset can lead to significant improvements in their performance. Even in zero-shot scenarios where video summarization models are only pre-trained on our dataset and not fine-tuned on the target data, the models demonstrated only a 2% drop in accuracy
Keywords:
Knowledge Distillation ; Vision-Language Models ; Frame Sampler ; Text-to-Video Retrieval

Digital Object List

محتواي کتاب
view

Bookmark

مقدمه
- تعریف مسئله
- اهمیت موضوع
- ادبیات موضوع
- اهداف پژوهش
- ساختار پایان‌نامه
کارهای پیشین
- یادگیری بازنمایی مشترک زبانی بصری
- وظیفه بازیابی متن به ویدیو
- استراتژی‌های نمونه‌برداری قاب
  - نمونه‌برداری قاب به عنوان وظیفه اصلی
  - نمونه‌برداری قاب برای وظیفه شناسایی کنش
  - نمونه‌برداری قاب برای وظیفه بازیابی متن به ویدیو
- تقطیر دانش
روش پیشنهادی
- خط لوله آموزشی
  - تابع هزینه طبقه‌بندی اهمیت
  - تابع هزینه حفظ شباهت
- استراتژی آموزشی دوگانه
- استراتژی استنتاج
- مجموعه داده ارائه شده
نتایج
- مجموعه‌دادگان
- جزئیات پیاده‌سازی
  - پیکربندی مدل
  - پیش‌پردازش داده‌ها
  - استراتژی آموزشی و ابرپارامترها
- تحلیل اثربخشی
  - تاثیر تعداد قاب‌های نمونه‌برداری شده
  - تصاویر انتخاب شده مهم و متنوع
  - اثر بر مدل‌های بازیابی متن به ویدیو
  - اثر بر مدل‌های بازیابی ویدیو به متن
- مقایسه عملکرد
- بررسی تاثیر مدل ستون فقرات
- آزمایش‌ها بر روی مجموعه‌دادگان ActivityNet Saliencies
جمع بندی
- نمونه‌برداری قاب
- تقسیم‌بندی صحنه
- خلاصه‌سازی ویدیو
- ارزیابی کلی و مقایسه با روش‌های پیشین
- جمع‌بندی و آینده‌نگری
مراجع
واژه‌نامه
_Master_s_thesis (1).pdf
- مقدمه
  - تعریف مسئله
  - اهمیت موضوع
  - ادبیات موضوع
  - اهداف پژوهش
  - ساختار پایان‌نامه
  - جمع‌بندی
- کارهای پیشین
  - یادگیری بازنمایی مشترک زبانی بصری
  - وظیفه بازیابی متن به ویدیو
  - استراتژی‌های نمونه‌برداری قاب
    - نمونه‌برداری قاب به عنوان وظیفه اصلی
    - نمونه‌برداری قاب برای وظیفه شناسایی کنش
    - نمونه‌برداری قاب برای وظیفه بازیابی متن به ویدیو
  - تقطیر دانش
  - جمع بندی
- روش پیشنهادی
  - خط لوله آموزشی
    - تابع هزینه طبقه‌بندی اهمیت
    - تابع هزینه حفظ شباهت
  - استراتژی آموزشی دوگانه
  - استراتژی استنتاج
  - مجموعه داده ارائه شده
  - جمع‌بندی
- نتایج
  - مجموعه‌دادگان
  - جزئیات پیاده‌سازی
    - پیکربندی مدل
    - پیش‌پردازش داده‌ها
    - استراتژی آموزشی و ابرپارامترها
  - تحلیل اثربخشی
    - تاثیر تعداد قاب‌های نمونه‌برداری شده
    - تصاویر انتخاب شده مهم و متنوع
    - اثر بر مدل‌های بازیابی متن به ویدیو
    - اثر بر مدل‌های بازیابی ویدیو به متن
  - مقایسه عملکرد
  - بررسی تاثیر مدل ستون فقرات
  - آزمایش‌ها بر روی مجموعه‌دادگان ActivityNet Saliencies
  - جمع‌بندی
- جمع بندی
  - نمونه‌برداری قاب
  - تقسیم‌بندی صحنه
  - خلاصه‌سازی ویدیو
  - ارزیابی کلی و مقایسه با روش‌های پیشین
  - جمع‌بندی و آینده‌نگری
- مراجع
- واژه‌نامه
_Master_s_thesis
- مقدمه
  - تعریف مسئله
  - اهمیت موضوع
  - ادبیات موضوع
  - اهداف پژوهش
  - ساختار پایان‌نامه
  - جمع‌بندی
- کارهای پیشین
  - یادگیری بازنمایی مشترک زبانی بصری
  - وظیفه بازیابی متن به ویدیو
  - استراتژی‌های نمونه‌برداری قاب
    - نمونه‌برداری قاب به عنوان وظیفه اصلی
    - نمونه‌برداری قاب برای وظیفه شناسایی کنش
    - نمونه‌برداری قاب برای وظیفه بازیابی متن به ویدیو
  - تقطیر دانش
  - جمع بندی
- روش پیشنهادی
  - خط لوله آموزشی
    - تابع هزینه طبقه‌بندی اهمیت
    - تابع هزینه حفظ شباهت
  - استراتژی آموزشی دوگانه
  - استراتژی استنتاج
  - مجموعه داده ارائه شده
  - جمع‌بندی
- نتایج
  - مجموعه‌دادگان
  - جزئیات پیاده‌سازی
    - پیکربندی مدل
    - پیش‌پردازش داده‌ها
    - استراتژی آموزشی و ابرپارامترها
  - تحلیل اثربخشی
    - تاثیر تعداد قاب‌های نمونه‌برداری شده
    - تصاویر انتخاب شده مهم و متنوع
    - اثر بر مدل‌های بازیابی متن به ویدیو
    - اثر بر مدل‌های بازیابی ویدیو به متن
  - مقایسه عملکرد
  - بررسی تاثیر مدل ستون فقرات
  - آزمایش‌ها بر روی مجموعه‌دادگان ActivityNet Saliencies
  - جمع‌بندی
- جمع بندی
  - نمونه‌برداری قاب
  - تقسیم‌بندی صحنه
  - خلاصه‌سازی ویدیو
  - ارزیابی کلی و مقایسه با روش‌های پیشین
  - جمع‌بندی و آینده‌نگری
- مراجع
- واژه‌نامه

Friend's email
Your name
Your email
enter code