Loading...
- Type of Document: M.Sc. Thesis
- Language: Farsi
- Document No: 56097 (19)
- University: Sharif University of Technology
- Department: Computer Engineering
- Advisor(s): Fazli, Mohammad Amin
- Abstract:
- Deep learning algorithms combined with supervision rely heavily on labeled data, posing challenges in the data labeling process. Addressing this issue, researchers in the field of machine learning have focused on developing approaches to reduce the dependency on labeled data and improve the efficiency of data collection for labeling purposes. This thesis investigates the training of a classification model using data collected through a human-in-the-loop system. Notably, this research pioneers the application of active learning techniques to differentiate between political and non-political Persian tweets. The dataset introduced in this study is the sole available collection for this specific task in the Persian language. The research evaluates and compares five active learning methods, namely least confidence active learning, margin confidence active learning, maximum entropy active learning, active learning with contrastive examples, and active learning with discrepancy in the committee. These methods are employed to collect unlabeled samples for labeling purposes using the dataset introduced in this research. The findings of this study offer insights into more optimal data collection techniques for this task, contributing to the advancement of active learning in the Persian language. Moreover, the research highlights significant research gaps in the field of active learning by evaluating traditional and modern active learning methods on datasets with distributions that differ from those used in previous studies
- Keywords:
- Active Learning ; Human in the Loop ; Political Tweet ; Annotation Budget Limit ; Supervised Learning ; Deep Learning
-
محتواي کتاب
- view
- مقدمه
- طرح مسئله
- اهداف پژوهش
- پرسشها و نوآوریهای پژوهش
- ساختار پایاننامه
- تعاریف اولیه و مسئله آموزش با دادگان محدود
- روشهای تقلیل نیاز مدل یادگیری به داده
- یادگیری نیمه نظارتی
- یادگیری ضعیف
- یادگیری انتقالی
- یادگیری فعال
- کارهای پیشین
- مقدمه
- نمونهگیری بر پایهی عدم قطعیت مدل
- نمونهگیری کمیته محور
- نمونهگیری بر پایه تنوع نمونهها
- نمونهگیری بر پایه تغییرات مورد انتظار مدل
- روشهای ترکیبی
- دادگان
- مقدمه
- معرفی دادگان اولیه و پیشپردازش
- برچسبزنی دادگان
- پردازش دادگان برای آزمایشها
- محدودیتهای فرآیند ایجاد دادگان
- راهکارهای یادگیری فعال برای مسئله طبقهبندی توییتهای سیاسی
- مقدمه
- مدل طبقهبندی
- رویکردهای معیار
- یادگیری فعال حداقل اطمینان
- یادگیری فعال حاشیه اطمینان
- یادگیری فعال بیشینه آنتروپی
- یادگیری فعال با نمونههای متضاد
- یادگیری فعال با اختلاف در کمیته
- ارزیابی
- مقدمه
- معیارهای ارزیابی مساله طبقهبندی
- شرایط آزمایش
- ارزیابی مدلهای معیار بر روی دادگان سیاسی
- ارزیابی روشهای پیشنهادی بر روی دادگان سیاسی
- نتیجهگیری
- نتیجهگیری و کارهای آینده
- مقدمه
- نتیجهگیری
- کارهای آینده
- مراجع
- واژهنامه