Loading...
- Type of Document: M.Sc. Thesis
- Language: Farsi
- Document No: 57195 (19)
- University: Sharif University of Technology
- Department: Computer Engineering
- Advisor(s): Rabiee, Hamid Reza
- Abstract:
- Models specifically designed for images are widely used in various video understanding tasks, including text-to-video retrieval. For this purpose, videos are viewed as sequences of frames. Most models uniformly select a few frames from each video and pass them to the image-specific model. While simple, this method often results in the selection of repetitive or irrelevant frames. Several trainable frame samplers have been introduced, but none can select important and diverse frames. In this study, we propose a teacher-student pipeline for training a frame sampler tailored for the text-to-video retrieval task. In this pipeline, frame-to-frame and frame-to-description similarities obtained by a vision-language model are taught to the student model. Our main hypothesis is that more important frames are described more frequently in the description of a video. Thus, we use the similarity score of each frame to the descriptive text as an indicator of its importance. Additionally, observing the power of vision-language models in semantically recognizing similar images, we propose a secondary loss function to train our model's backbone using frame-to-frame similarities provided by a vision-language model. This approach not only improves the model's performance in assigning close importance scores to similar frames but also leverages these learned similarities during inference to select diverse frames. In the experiments conducted in this study, we used our frame sampler as the initial component of several SOTA text-to-video retrieval models on two datasets, MSR-VTT and ActivityNet. The results of these experiments demonstrated that selecting more important and diverse frames significantly improved the downstream performance of these models. For long videos in ActivityNet, which were the primary target for our frame sampler, selecting important frames resulted in a 2% improvement in R@1, while selecting both important and diverse frames led to an approximately 4% improvement. Additionally, we propose a dataset as a valuable resource for pre-training video summarization models. Pre-training several video summarization models on our dataset has shown that using this dataset can lead to significant improvements in their performance. Even in zero-shot scenarios where video summarization models are only pre-trained on our dataset and not fine-tuned on the target data, the models demonstrated only a 2% drop in accuracy
- Keywords:
- Knowledge Distillation ; Vision-Language Models ; Frame Sampler ; Text-to-Video Retrieval
-
محتواي کتاب
- view
- مقدمه
- تعریف مسئله
- اهمیت موضوع
- ادبیات موضوع
- اهداف پژوهش
- ساختار پایاننامه
- کارهای پیشین
- یادگیری بازنمایی مشترک زبانی بصری
- وظیفه بازیابی متن به ویدیو
- استراتژیهای نمونهبرداری قاب
- نمونهبرداری قاب به عنوان وظیفه اصلی
- نمونهبرداری قاب برای وظیفه شناسایی کنش
- نمونهبرداری قاب برای وظیفه بازیابی متن به ویدیو
- تقطیر دانش
- روش پیشنهادی
- خط لوله آموزشی
- تابع هزینه طبقهبندی اهمیت
- تابع هزینه حفظ شباهت
- استراتژی آموزشی دوگانه
- استراتژی استنتاج
- مجموعه داده ارائه شده
- خط لوله آموزشی
- نتایج
- مجموعهدادگان
- جزئیات پیادهسازی
- پیکربندی مدل
- پیشپردازش دادهها
- استراتژی آموزشی و ابرپارامترها
- تحلیل اثربخشی
- تاثیر تعداد قابهای نمونهبرداری شده
- تصاویر انتخاب شده مهم و متنوع
- اثر بر مدلهای بازیابی متن به ویدیو
- اثر بر مدلهای بازیابی ویدیو به متن
- مقایسه عملکرد
- بررسی تاثیر مدل ستون فقرات
- آزمایشها بر روی مجموعهدادگان ActivityNet Saliencies
- جمع بندی
- نمونهبرداری قاب
- تقسیمبندی صحنه
- خلاصهسازی ویدیو
- ارزیابی کلی و مقایسه با روشهای پیشین
- جمعبندی و آیندهنگری
- مراجع
- واژهنامه
- _Master_s_thesis (1).pdf
- مقدمه
- تعریف مسئله
- اهمیت موضوع
- ادبیات موضوع
- اهداف پژوهش
- ساختار پایاننامه
- جمعبندی
- کارهای پیشین
- یادگیری بازنمایی مشترک زبانی بصری
- وظیفه بازیابی متن به ویدیو
- استراتژیهای نمونهبرداری قاب
- نمونهبرداری قاب به عنوان وظیفه اصلی
- نمونهبرداری قاب برای وظیفه شناسایی کنش
- نمونهبرداری قاب برای وظیفه بازیابی متن به ویدیو
- تقطیر دانش
- جمع بندی
- روش پیشنهادی
- خط لوله آموزشی
- تابع هزینه طبقهبندی اهمیت
- تابع هزینه حفظ شباهت
- استراتژی آموزشی دوگانه
- استراتژی استنتاج
- مجموعه داده ارائه شده
- جمعبندی
- خط لوله آموزشی
- نتایج
- مجموعهدادگان
- جزئیات پیادهسازی
- پیکربندی مدل
- پیشپردازش دادهها
- استراتژی آموزشی و ابرپارامترها
- تحلیل اثربخشی
- تاثیر تعداد قابهای نمونهبرداری شده
- تصاویر انتخاب شده مهم و متنوع
- اثر بر مدلهای بازیابی متن به ویدیو
- اثر بر مدلهای بازیابی ویدیو به متن
- مقایسه عملکرد
- بررسی تاثیر مدل ستون فقرات
- آزمایشها بر روی مجموعهدادگان ActivityNet Saliencies
- جمعبندی
- جمع بندی
- نمونهبرداری قاب
- تقسیمبندی صحنه
- خلاصهسازی ویدیو
- ارزیابی کلی و مقایسه با روشهای پیشین
- جمعبندی و آیندهنگری
- مراجع
- واژهنامه
- مقدمه
- _Master_s_thesis
- مقدمه
- تعریف مسئله
- اهمیت موضوع
- ادبیات موضوع
- اهداف پژوهش
- ساختار پایاننامه
- جمعبندی
- کارهای پیشین
- یادگیری بازنمایی مشترک زبانی بصری
- وظیفه بازیابی متن به ویدیو
- استراتژیهای نمونهبرداری قاب
- نمونهبرداری قاب به عنوان وظیفه اصلی
- نمونهبرداری قاب برای وظیفه شناسایی کنش
- نمونهبرداری قاب برای وظیفه بازیابی متن به ویدیو
- تقطیر دانش
- جمع بندی
- روش پیشنهادی
- خط لوله آموزشی
- تابع هزینه طبقهبندی اهمیت
- تابع هزینه حفظ شباهت
- استراتژی آموزشی دوگانه
- استراتژی استنتاج
- مجموعه داده ارائه شده
- جمعبندی
- خط لوله آموزشی
- نتایج
- مجموعهدادگان
- جزئیات پیادهسازی
- پیکربندی مدل
- پیشپردازش دادهها
- استراتژی آموزشی و ابرپارامترها
- تحلیل اثربخشی
- تاثیر تعداد قابهای نمونهبرداری شده
- تصاویر انتخاب شده مهم و متنوع
- اثر بر مدلهای بازیابی متن به ویدیو
- اثر بر مدلهای بازیابی ویدیو به متن
- مقایسه عملکرد
- بررسی تاثیر مدل ستون فقرات
- آزمایشها بر روی مجموعهدادگان ActivityNet Saliencies
- جمعبندی
- جمع بندی
- نمونهبرداری قاب
- تقسیمبندی صحنه
- خلاصهسازی ویدیو
- ارزیابی کلی و مقایسه با روشهای پیشین
- جمعبندی و آیندهنگری
- مراجع
- واژهنامه
- مقدمه
