Loading...
- Type of Document: M.Sc. Thesis
- Language: Farsi
- Document No: 47596 (19)
- University: Sharif University of Technology
- Department: Computer Engineering
- Advisor(s): Soleymani, Mahdieh
- Abstract:
- Recent advances in data recording has lead to different modalities like text, image, audio and video. Images are annotated and audio accompanies video. Because of distinct modality statistical properties, shallow methods have been unsuccessful in finding a shared representation which maintains the most information about different modalities. Recently, deep networks have been used for extracting high-level representations for multimodal data. In previous methods, for each modality, one modality-specific network was learned. Thus, high-level representations for different modalities were extracted. Since these high-level representations have less difference than raw modalities, a shared representation is computed from them. The main problem in previous methods is that they didn’t consider lower-level intractions between modalities. In addition, the final representation is more affected by stronger modality and therefore, when there’s only a weak modality present, representation isn’t very informative. In this thesis, we extract high-level representation for each modality by using a modality-specific generalized denoising stacked auto-encoder. Then, we try to hold high-level representations separetely instead of merging them. Then, each level of each modality is reconstructed from previous level of the other modality using cross edges. Proposed network tries to learn these edges bottom up in a deep manner. As we will show theoretically, these cross edges preserve more inter-modality information. Furthermore, we have proposed a novel fine-tuning for unsupervised multimodal deep networks. This fine-tuning allows us to use any amount of supervision information. In experiments, the proposed method outperforms state-ofthe-art retrieval methods on PASCAL-Sentence and SUN-Attribute datasets. Proposed method has also promising results on an artificial multimodal dataset made of MNIST images. In addition, it outperforms state-of-the-art methods in multilabel application for Mediamill dataset
- Keywords:
- Multi-Modal Data ; Deep Networks ; Cross Edges ; Stacked Denoising Autoencoder ; Unsupervised Fine Tuning
-
محتواي کتاب
- view
- فهرست شکلها
- فهرست جدولها
- مقدمه
- تعریف مساله
- اهمیت
- کاربرد
- چالشها
- معیارهای ارزیابی
- نوآوریهای این پژوهش
- جمعبندی
- روشهای پیشین
- دادههای چندگونه
- مروری بر روشهای ارایه شده در حوزهی دادههای چندگونه
- روشهای غیر ژرف
- شبکههای ژرف
- تعریف و مروری تاریخی بر شبکههای ژرف
- انواع شبکههای ژرف
- روشهای چندگونهی مبتنی بر شبکههای ژرف بدون در نظر گرفتن ساختار
- روشهای چندگونهی مبتنی بر شبکههای ژرف با در نظر گرفتن ساختار
- جمعبندی
- راهکار پیشنهادی
- رسایی یک بازنمایی
- شبکهی ژرف چندگونه با استفاده از یالهای تقاطعی
- معماری و آموزش شبکهی پیشنهادی
- پیشآموزش شبکه
- علت شهودی بهتر بودن شبکهی پیشنهادی نسبت به سایر روشها
- مدل گرافی برای روش پیشنهادی
- علت نظری بهتر بودن شبکهی پیشنهادی نسبت به سایر روشها
- تنظیمدقیق بدون نظارت
- تنظیمدقیق با نظارت
- الگوریتم روش پیشنهادی
- شبکهی ژرف با یالهای تقاطعی برای کاربرد دستهبندی چند برچسبی
- انواع توابع ضرر برای مجموعهدادگان با ویژگیهای مختلف
- ویژگیهای پیوسته
- ویژگیهای گسسته
- ویژگیهای دودویی با جریمهی متفاوت برای تشخیص صفر و یک
- جمعبندی
- آزمایشها
- مجموعهدادگان
- MNIST
- PASCAL-Sentence
- SUN-Attribute
- Mediamill
- معیار ارزیابی
- تنظیمات و نتایج آزمایشها
- مدل با نظارت برای مجموعهدادگان MNIST
- مدل با نظارت برای مجموعهدادگان PASCAL-Sentence
- مدل بدون نظارت برای مجموعهدادگان PASCAL-Sentence
- مدل با نظارت برای مجموعهدادگان SUN-Attribute
- مدل با نظارت برای مجموعهدادگان Mediamill
- مشخصات سیستم مورد استفاده
- جمعبندی و تحلیل نتایج آزمایشها
- مجموعهدادگان
- جمعبندی و کارهای آتی
- استفاده از RBM به جای کدگذار خودکار
- استفاده از Tensor به جای جمع کردن دو ورودی به هر لایه
- در نظر نگرفتن بعضی یالهای تقاطعی
- در نظر گرفتن پیشآموزش با نظارت
- سلسلهمراتب دستهها
- کاربردهای چند منظره
- انواع مدلهای RBM
- تعریف چند معیار از نظریهی اطلاعات
- روشهای چندگونهی مبتنی بر شبکههای ژرف با در نظر گرفتن ساختار
- مراجع
- واژهنامه انگلیسی به فارسی
- واژهنامه فارسی به انگلیسی