Loading...
- Type of Document: M.Sc. Thesis
- Language: Farsi
- Document No: 53734 (19)
- University: Sharif University of Technology
- Department: Computer Engineering
- Advisor(s): Soleymani Baghshah, Mahdieh
- Abstract:
- Regarding the ever-increasing usage of text generation and analysis in Natural Language Processing field, Language Modeling and Masked Language Modeling have been recently one of the most frequent tasks. Besides, many pretrained models such as BERT have been proposed due to the lack of rich datasets and computational resources among researchers. These models can be finetuned on other datasets in downstream tasks. Although these Transformer-based deep neural networks have performed perfectly in many problems, they still have some shortcomings in a few tasks.Furthermore, structured data like graphs have been recently used extensively in Natural Language Processing and researchers have taken advantage of their rich information in various Natural Language Processing tasks. For instance, Knowledge Graphs provide rich information about the relations between world entities. Knowledge Graphs have been used in many tasks such as text generation, text classification, and language modeling. Regarding the rich information of Knowledge Graphs and other graphs derived from textual corpus, as well as the shortcomings of BERT, a few methods have been proposed in this project in order to provide enriched word embeddings by combining the global information existing in a static multi-graph, consisting of a Knowledge Graph and other graphs using the TF-IDF and PMI values, and the pretrained information in BERT model. In this project, the information from the multi-graph mentioned above is extracted using Relational Graph Convolutional Networks (R-GCN) and Graph Attention Networks (GAT). A multi-head attention-based extension has also been proposed for analyzing a dynamic graph derived from input sentences.Finally, BERT model as a baseline, other related models, and different versions of the proposed model in this project have been experimented from qualitative and quantitative perspectives using Hits@1, Hits@5, and Perplexity metrics. The reported results demonstrate that the proposed model using Relational Graph Convolutional Network with the help of dynamic sentence graph analysis using attention mechanism has been generally superior.
- Keywords:
- Graph Neural Network ; Knowledge Graph ; Graph Attention Networks ; Graph-Based Embedding ; Masked Language Modeling ; Graph Convolutional Networks
-
محتواي کتاب
- view
- 1 مقدمه
- 1-1 تعریف مسأله
- 1-2 اهمیت و کاربرد
- 1-3 رویکردهای مدل زبانی
- 1-4 رویکردهای تعبیهی [fa]KG
- 1-5 چالشها
- 1-6 هدف پژوهش
- 1-7 ساختار پایاننامه
- 2 پژوهشهای پیشین
- 2-1 مقدمه
- 2-1-1 پیشنیازها
- 2-2 معماریها و شبکههای مورد استفاده در مسألهی مدل زبانی
- 2-2-1 معماری بازگشتی
- 2-2-2 معماری Transformer
- 2-2-3 شبکهی BERT
- 2-3 مدلهای بر پایهی گراف
- 2-3-1 [fa]gcn
- 2-3-2 [fa]rgcn
- 2-3-3 [fa]gat
- 2-4 گرافهای مورد استفاده در حوزهی [fa]nlp
- 2-4-1 گراف AMR
- 2-4-2 گرافهای برگرفته از متن
- 2-4-3 گرافهای دانش
- 2-5 کاربرد گرافهای دانش در شبکههای ژرف [fa]nlp
- 2-5-1 تولید متن
- 2-5-2 [fa]relext
- 2-5-3 [fa]reasoning
- 2-5-4 [fa]qa
- 2-5-5 [fa]entalign
- 2-5-6 دستهبندی متن
- 2-5-7 مدل زبانی
- 2-6 روشهای مبتنی بر گراف برای مدل زبانی
- 2-6-1 مدل زبانی با استفاده از تعبیهی [fa]pretrained موجودیتها
- 2-6-2 مدل زبانی با استفاده از [fa]maskهای متفاوت
- 2-6-3 مدل زبانی با امکان انتخاب کلمات [fa]KG
- 2-6-4 بازنمایی همزمان زبان و دانش
- 2-7 جمعبندی
- 2-1 مقدمه
- 3 راهکار پیشنهادی
- 3-1 مقدمه
- 3-1-1 بررسی کاستیهای مدلهای زبانی پیشنهادی پیشین مبتنی بر Transformer
- 3-2 معرفی گرافهای ثابت مورد استفاده در روش پیشنهادی
- 3-3 معماری کلی پیشنهادی
- 3-4 معماریهای پیشنهادی برای لایهی گرافی
- 3-4-1 استخراج اطلاعات از چندگرافی ثابت
- 3-4-2 استخراج اطلاعات از گراف پویای جمله
- 3-5 آموزش شبکهی پیشنهادی
- 3-5-1 آمادهسازی دادگان و گرافها
- 3-5-2 تابع هزینه
- 3-5-3 شبهکد فرایند آموزش مدل مبتنی بر لایهی پیچشی گرافی و تحلیل پویای جمله
- 3-6 جمعبندی
- 3-1 مقدمه
- 4 پیادهسازی، آزمایشها و ارزیابی
- 4-1 مقدمه
- 4-2 مجموعه دادگان آموزش
- 4-2-1 معرفی [fa]KG
- 4-2-2 معرفی دادگان متنی
- 4-3 معیارهای ارزیابی
- 4-3-1 معیار Hits@k
- 4-3-2 معیار [fa]perplex
- 4-4 سختیهای آموزش مدلهای پیشنهادی
- 4-5 مقداردهی [fa]hyperparamها و تنظیمات مدل
- 4-5-1 [fa]hyperparamهای مربوط به قسمتهای مشابه شبکهی BERT
- 4-5-2 [fa]hyperparamهای مربوط به لایهی گرافی
- 4-5-3 [fa]hyperparamهای خاص مجموعه دادگان
- 4-6 ارزیابی مدلهای پیشنهادی و مقایسه با مدلهای مشابه موجود
- 4-6-1 معرفی مدلهای مشابه موجود
- 4-6-2 ارزیابی مدلها
- 4-7 مقایسهی تأثیر گرافهای متفاوت چندگرافی ثابت
- 4-8 جمعبندی
- 5 جمعبندی و کارهای آتی
- مراجع
- واژهنامه فارسی به انگلیسی
- واژهنامه انگلیسی به فارسی
- کلمات کوتهنوشت