Loading...

Political Tweet Classification with Active Learning

Mirzababaei, Sajad | 2023

121 Viewed
  1. Type of Document: M.Sc. Thesis
  2. Language: Farsi
  3. Document No: 56097 (19)
  4. University: Sharif University of Technology
  5. Department: Computer Engineering
  6. Advisor(s): Fazli, Mohammad Amin
  7. Abstract:
  8. Deep learning algorithms combined with supervision rely heavily on labeled data, posing challenges in the data labeling process. Addressing this issue, researchers in the field of machine learning have focused on developing approaches to reduce the dependency on labeled data and improve the efficiency of data collection for labeling purposes. This thesis investigates the training of a classification model using data collected through a human-in-the-loop system. Notably, this research pioneers the application of active learning techniques to differentiate between political and non-political Persian tweets. The dataset introduced in this study is the sole available collection for this specific task in the Persian language. The research evaluates and compares five active learning methods, namely least confidence active learning, margin confidence active learning, maximum entropy active learning, active learning with contrastive examples, and active learning with discrepancy in the committee. These methods are employed to collect unlabeled samples for labeling purposes using the dataset introduced in this research. The findings of this study offer insights into more optimal data collection techniques for this task, contributing to the advancement of active learning in the Persian language. Moreover, the research highlights significant research gaps in the field of active learning by evaluating traditional and modern active learning methods on datasets with distributions that differ from those used in previous studies
  9. Keywords:
  10. Active Learning ; Human in the Loop ; Political Tweet ; Annotation Budget Limit ; Supervised Learning ; Deep Learning

 Digital Object List

 Bookmark

  • مقدمه
    • طرح مسئله
    • اهداف پژوهش
    • پرسش‌ها و نو‌آوری‌های پژوهش
    • ساختار پایان‌نامه
  • تعاریف اولیه و مسئله آموزش با دادگان محدود
    • روش‌های تقلیل نیاز مدل یادگیری به داده
    • یادگیری نیمه نظارتی
    • یادگیری ضعیف
    • یادگیری انتقالی
    • یادگیری فعال
  • کارهای پیشین
    • مقدمه
    • نمونه‌گیری بر پایه‌ی عدم قطعیت مدل
    • نمونه‌گیری کمیته محور
    • نمونه‌گیری بر پایه تنوع نمونه‌ها
    • نمونه‌گیری بر پایه تغییرات مورد انتظار مدل
    • روش‌های ترکیبی
  • دادگان
    • مقدمه
    • معرفی دادگان اولیه و پیش‌پردازش
    • برچسب‌زنی دادگان
    • پردازش دادگان برای آزمایش‌ها
    • محدودیت‌های فرآیند ایجاد دادگان
  • راهکار‌های یادگیری فعال برای مسئله طبقه‌بندی توییت‌های سیاسی
    • مقدمه
    • مدل طبقه‌بندی
    • رویکرد‌های معیار
    • یادگیری فعال حداقل اطمینان
    • یادگیری فعال حاشیه اطمینان
    • یادگیری فعال بیشینه آنتروپی
    • یادگیری فعال با نمونه‌های متضاد
    • یادگیری فعال با اختلاف در کمیته
  • ارزیابی
    • مقدمه
    • معیار‌های ارزیابی مساله طبقه‌بندی
    • شرایط آزمایش
    • ارزیابی مدل‌های معیار بر روی دادگان سیاسی
    • ارزیابی روش‌های پیشنهادی بر روی دادگان سیاسی
    • نتیجه‌گیری
  • نتیجه‌گیری و کار‌های آینده
    • مقدمه
    • نتیجه‌گیری
    • کار‌های آینده
  • مراجع
  • واژه‌نامه
...see more