Loading...

Persian Named Entity Recognition

Jalali Farahani, Farane | 2020

879 Viewed
  1. Type of Document: M.Sc. Thesis
  2. Language: Farsi
  3. Document No: 53326 (19)
  4. University: Sharif University of Technology
  5. Department: Computer Engineering
  6. Advisor(s): Ghassem-Sani, Gholamreza
  7. Abstract:
  8. Named entity recognition (NER) is one of important tasks in natural language processing (NLP). Named entities consist of specific nouns such as personal names, organizations, locations, etc., which refer to important entities in text. NER contributes towards other NLP tasks such as machine translation, text summarization ,and text classification. In the recent decade, with respect to development of deep learning (DL) methods, considerable progress has been made in this field. The objective here is to propose an efficient method for NER in Farsi (Persian) text through DL methods. Since deep neural networks require a great deal of training data, and due to the fact that Farsi lacks such data, we have tried to apply transfer learning and active learning approaches. BERT pre-trained model is applied here, which is based on transfer learning to take advantage of transferring knowledge from source task to destination task. BERT is capable of supporting more than 100 languages including Farsi. The architecture of our proposed method is based on BERT and conditional random field (CRF). The results of applying supervised learning method on Arman corpus is 84.23% and 80.80% word-level and phrase-level F1-score, respectively. Our proposed method on PEYMA corpus has 86.14% and 82.05% word-level and phrase-level F1-score, respectively. By applying active learning methods with 30% of the Arman corpus and 20% of the PEYMA corpus separately, a 92.15% and 92.41% efficiency of supervised learning have been obtained, respectively
  9. Keywords:
  10. Natural Language Processing ; Active Learning ; Transfer Learning ; Named Entity Recognition ; Bidirectional Encoder Representations from Transformers (BERT)Model

 Digital Object List

 Bookmark

  • 1 مقدمه
    • 1-1 تعریف مساله
    • 2-1 ساختار پایان‌نامه
  • 2 بررسی پژوهش‌های مرتبط پیشین
    • 1-2 مقدمه
    • 2-2 رویکرد‌های کلی در تشخیص موجودیت‌های نامدار
      • 2-2.1 رویکرد مبتنی بر قاعده
        • 2-2.1.1 رویکرد مبتنی بر قاعده در زبان انگلیسی
        • 2-2.1.2 رویکرد مبتنی بر قاعده در زبان فارسی
      • 2-2.2 رویکرد مدل‌های آماری
        • 2-2.2.1 رویکرد مدل‌های آماری در زبان انگلیسی
        • 2-2.2.2 رویکرد مدل‌های آماری در زبان فارسی
      • 2-2.3 رویکرد یادگیری ژرف
        • 2-2.3.1 بازنمایی ورودی
        • 2-2.3.2 کدگذار محتوا
        • 2-2.3.3 کدگشای برچسب
        • 2-2.3.4 رویکرد یادگیری ژرف در زبان انگلیسی
        • 2-2.3.5 رویکرد یادگیری ژرف در زبان فارسی
    • 3-2 یادگیری فعال در تشخیص موجودیت نامدار
    • 4-2 خلاصه
  • 3 مفاهیم و روش های مورد استفاده
    • 1-3 مقدمه
    • 2-3 یادگیری انتقالی
      • 2-3.1 رویکرد مبتنی بر نمونه
      • 2-3.2 رویکرد مبتنی بر ویژگی
      • 2-3.3 رویکرد مبتنی بر مدل
      • 2-3.4 رویکرد مبتنی بر رابطه
    • 3-3 معرفی مدل برت
      • 3-3.1 معماری تبدیل کننده
      • 3-3.2 معماری برت
    • 4-3 یادگیری فعال
    • 5-3 خلاصه
  • 4 روش پیشنهادی
    • 1-4 مقدمه
    • 2-4 معماری روش پیشنهادی
      • 2-4.1 کدگشای برچسب
    • 3-4 یادگیری فعال در برت
      • 3-4.1 کمترین اطمینان عادی‌شده
      • 3-4.2 حاشیه
      • 3-4.3 بی‌نظمی دنباله
    • 4-4 خلاصه
  • 5 آزمایش‌ها و تحلیل نتایج
    • 1-5 مقدمه
    • 2-5 مجموعه داده مورد استفاده
      • 2-5.1 پیکره‌ی آرمان
      • 2-5.2 پیکره‌ی پیما
    • 3-5 معیار‌های ارزیابی
    • 4-5 پارامتر‌های مدل
    • 5-5 پیاده‌سازی
      • 5-5.1 برت با روش یادگیری با نظارت
      • 5-5.2 برت با روش یادگیری فعال
    • 6-5 خلاصه
  • 6 نتیجه‌گیری و کار‌های آتی
    • 1-6 نتیجه‌گیری
    • 2-6 کارهای آتی
  • مراجع
  • واژه‌نامه فارسی به انگلیسی
  • واژه‌نامه انگلیسی به فارسی
...see more