Loading...
- Type of Document: M.Sc. Thesis
- Language: Farsi
- Document No: 57070 (05)
- University: Sharif University of Technology
- Department: Electrical Engineering
- Advisor(s): Hajsadeghi, Khosrow
- Abstract:
- In this thesis, we study the task of sign language translation using a non-end-to-end framework by utilizing large language models. The proposed method initially generates a sequence of glosses corresponding to a sign language video through a continuous sign language recognition model, which is then considered as input for a language model. The role of a language model in this framework is to translate the sequence of glosses into coherent sentences in spoken language. Given the limited training resources available for machine translation models on the specific problem of sign language to text translation, leveraging large language models can be highly beneficial due to the accumulated knowledge gained during their pre-training process. Considering the current popularity of instruction-following large language models, our research investigates the impact of fine-tuning on instructions to improve the performance of a language model on the task of gloss to text translation. In this context, the problem of gloss to text translation is formulated as a set of instructions, and several large language models with different architectures and pre-training methods are evaluated for translating sign language glosses to spoken language sentences. By incorporating the T5 language model into our framework, our method surpasses previous top-performing solutions by 1.16 and 2.35 BLEU-4 scores for the G2T and S2G → G2T evaluation protocols on the Phoenix dataset, respectively, and achieves near state-of-the-art results on the S2G2T protocol. Furthermore, our method outperforms previous best solutions by a significant margin of 4.47 BLEU-4 score on the ASLG dataset
- Keywords:
- Large Language Model ; Continuous Signs Recognition ; Sign Language ; Sign Language Recognition ; Instruction Fine-Tuning ; Non-End-To-End Framework ; Sign Language Translation
-
محتواي کتاب
- view
- پیشینه و کارهای مرتبط
- مقدمه
- تعریف مسئله
- اهمیت موضوع
- مروری بر كارهای انجام شده
- معماریهای تک جریانی و چند جریانی
- ظهور روشهای مبتنی بر یادگیری عمیق
- مدلهای دنباله به دنباله
- معرفی ترانسفورمر
- تنظیم دقیق مدلهای زبانی بزرگ بر روی دستورالعمل
- ترجمه ماشینی و اثر بخش بودن مدلهای زبانی بزرگ در ترجمه
- دیتاستهای کلیدی جهت ترجمه زبانهای اشاره
- اهداف پژوهش
- ساختار پایاننامه
- مفاهیم اولیه
- یادگیری عمیق انتها به انتها و غیر انتها به انتها
- تشخیص زبانهای اشاره
- شبکه چند نشانه فضایی-زمانی
- ترجمه ماشینی به کمک مدلهای زبانی بزرگ
- پیش آموزش به منظور بهبود ترجمه ماشینی
- بهبود عملکرد مدلهای زبانی به کمک تنظیم دقیق بر روی دستورالعمل
- پروتکلهای ارزیابی
- معیارهای ارزیابی
- نرخ خطای کلمه
- جایگزین ارزشیابی دو زبانه
- جایگزین مبتنی بر بازیابی برای ارزیابی کلی
- معیار ارزیابی ترجمه با ترتیب صریح
- استفاده از مدلهای زبانی بزرگ در ترجمه زبانهای اشاره
- ارائه رویکردی جهت به کارگیری مدلهای زبانی بزرگ در ترجمه زبانهای اشاره
- جزئیات پیادهسازی
- ابزارها
- پیش پردازش دنبالههای واژه
- بیان کردن ترجمه زبان اشاره در قالب دستورالعمل
- مدلها
- تولید متن زبان گفتاری
- آموزش شبکه و تحلیل نتایج
- مدلهای زبانی تنها دیکدر
- مدل Times New RomanGPT-2
- مدل Times New Romandlite-v2-774m
- مدلهای زبانی انکدر-دیکدر
- مدل Times New RomanT5
- مدل Times New RomanFLAN-T5
- جمعبندی نتایج
- مدلهای زبانی تنها دیکدر
- جمعبندی و پیشنهادات
- جمعبندی
- پیشنهادات
- مراجع