Loading...

Graph-based Word Embedding Using Deep Neural Networks

Behnam Ghader, Parishad | 2021

659 Viewed
  1. Type of Document: M.Sc. Thesis
  2. Language: Farsi
  3. Document No: 53734 (19)
  4. University: Sharif University of Technology
  5. Department: Computer Engineering
  6. Advisor(s): Soleymani Baghshah, Mahdieh
  7. Abstract:
  8. Regarding the ever-increasing usage of text generation and analysis in Natural Language Processing field, Language Modeling and Masked Language Modeling have been recently one of the most frequent tasks. Besides, many pretrained models such as BERT have been proposed due to the lack of rich datasets and computational resources among researchers. These models can be finetuned on other datasets in downstream tasks. Although these Transformer-based deep neural networks have performed perfectly in many problems, they still have some shortcomings in a few tasks.Furthermore, structured data like graphs have been recently used extensively in Natural Language Processing and researchers have taken advantage of their rich information in various Natural Language Processing tasks. For instance, Knowledge Graphs provide rich information about the relations between world entities. Knowledge Graphs have been used in many tasks such as text generation, text classification, and language modeling. Regarding the rich information of Knowledge Graphs and other graphs derived from textual corpus, as well as the shortcomings of BERT, a few methods have been proposed in this project in order to provide enriched word embeddings by combining the global information existing in a static multi-graph, consisting of a Knowledge Graph and other graphs using the TF-IDF and PMI values, and the pretrained information in BERT model. In this project, the information from the multi-graph mentioned above is extracted using Relational Graph Convolutional Networks (R-GCN) and Graph Attention Networks (GAT). A multi-head attention-based extension has also been proposed for analyzing a dynamic graph derived from input sentences.Finally, BERT model as a baseline, other related models, and different versions of the proposed model in this project have been experimented from qualitative and quantitative perspectives using Hits@1, Hits@5, and Perplexity metrics. The reported results demonstrate that the proposed model using Relational Graph Convolutional Network with the help of dynamic sentence graph analysis using attention mechanism has been generally superior.
  9. Keywords:
  10. Graph Neural Network ; Knowledge Graph ; Graph Attention Networks ; Graph-Based Embedding ; Masked Language Modeling ; Graph Convolutional Networks

 Digital Object List

 Bookmark

  • 1 مقدمه
    • 1-1 تعریف مسأله
    • 1-2 اهمیت و کاربرد
    • 1-3 رویکردهای مدل زبانی
    • 1-4 رویکردهای تعبیه‌ی [fa]KG
    • 1-5 چالش‌ها
    • 1-6 هدف پژوهش
    • 1-7 ساختار پایان‌نامه
  • 2 پژوهش‌های پیشین
    • 2-1 مقدمه
      • 2-1-1 پیش‌نیازها
    • 2-2 معماری‌‌ها و شبکه‌های مورد استفاده در مسأله‌ی مدل زبانی
      • 2-2-1 معماری بازگشتی
      • 2-2-2 معماری Transformer
      • 2-2-3 شبکه‌ی BERT
    • 2-3 مدل‌های بر پایه‌ی گراف
      • 2-3-1 [fa]gcn
      • 2-3-2 [fa]rgcn
      • 2-3-3 [fa]gat
    • 2-4 گراف‌های مورد استفاده در حوزه‌ی [fa]nlp
      • 2-4-1 گراف AMR
      • 2-4-2 گراف‌های برگرفته از متن
      • 2-4-3 گراف‌های دانش
    • 2-5 کاربرد گراف‌های دانش در شبکه‌های ژرف [fa]nlp
      • 2-5-1 تولید متن
      • 2-5-2 [fa]relext
      • 2-5-3 [fa]reasoning
      • 2-5-4 [fa]qa
      • 2-5-5 [fa]entalign
      • 2-5-6 دسته‌بندی متن
      • 2-5-7 مدل زبانی
    • 2-6 روش‌های مبتنی بر گراف برای مدل زبانی
      • 2-6-1 مدل زبانی با استفاده از تعبیه‌ی [fa]pretrained موجودیت‌ها
      • 2-6-2 مدل زبانی با استفاده از [fa]mask‌های متفاوت
      • 2-6-3 مدل زبانی با امکان انتخاب کلمات [fa]KG
      • 2-6-4 بازنمایی همزمان زبان و دانش
    • 2-7 جمع‌بندی
  • 3 راهکار پیشنهادی
    • 3-1 مقدمه
      • 3-1-1 بررسی کاستی‌های مدل‌های زبانی پیشنهادی پیشین مبتنی بر Transformer
    • 3-2 معرفی گراف‌های ثابت مورد استفاده در روش پیشنهادی
    • 3-3 معماری کلی پیشنهادی
    • 3-4 معماری‌های پیشنهادی برای لایه‌ی گرافی
      • 3-4-1 استخراج اطلاعات از چندگرافی ثابت
      • 3-4-2 استخراج اطلاعات از گراف پویای جمله
    • 3-5 آموزش شبکه‌ی پیشنهادی
      • 3-5-1 آماده‌سازی دادگان و گراف‌ها
      • 3-5-2 تابع هزینه
      • 3-5-3 شبه‌کد فرایند آموزش مدل مبتنی بر لایه‌ی پیچشی گرافی و تحلیل پویای جمله
    • 3-6 جمع‌بندی
  • 4 پیاده‌سازی، آزمایش‌ها و ارزیابی
    • 4-1 مقدمه
    • 4-2 مجموعه دادگان آموزش
      • 4-2-1 معرفی [fa]KG
      • 4-2-2 معرفی دادگان متنی
    • 4-3 معیارهای ارزیابی
      • 4-3-1 معیار Hits@k
      • 4-3-2 معیار [fa]perplex
    • 4-4 سختی‌های آموزش مدل‌های پیشنهادی
    • 4-5 مقداردهی [fa]hyperparamها و تنظیمات مدل
      • 4-5-1 [fa]hyperparamهای مربوط به قسمت‌های مشابه شبکه‌ی BERT
      • 4-5-2 [fa]hyperparamهای مربوط به لایه‌ی گرافی
      • 4-5-3 [fa]hyperparamهای خاص مجموعه دادگان
    • 4-6 ارزیابی مدل‌های پیشنهادی و مقایسه با مدل‌های مشابه موجود
      • 4-6-1 معرفی مدل‌های مشابه موجود
      • 4-6-2 ارزیابی مدل‌ها
    • 4-7 مقایسه‌ی تأثیر گراف‌های متفاوت چندگرافی ثابت
    • 4-8 جمع‌بندی
  • 5 جمع‌بندی و کار‌های آتی
  • مراجع
  • واژه‌نامه فارسی به انگلیسی
  • واژه‌نامه انگلیسی به فارسی
  • کلمات کوته‌نوشت
...see more