Loading...
Motif Finding in DNA Sequences by Using Machine Learning Approach
Haghir Ebrahimabadi, Mohammad | 2017
539
Viewed
- Type of Document: M.Sc. Thesis
- Language: Farsi
- Document No: 50434 (05)
- University: Sharif University of Technology
- Department: Electrical Engineering
- Advisor(s): Fatemizadeh, Emadeddin
- Abstract:
- Motifs are patterns which can be extracted from specific subsequences of promoter region of some related genes. Transcription factor proteins bind to these subsequences and play a significant role in gene expression regulation.
Motif discovery is a challenging problem in molecular biology and has been attracting researcher’s attention for years. Different kind of data and computational methods have been used to unravel this problem, but there is still room for improvement. In this study, our goal was to develop a method with the ability to identify all the TFBS signals, including known and unknown, inside the input set of sequences. We developed a clustering method specialized as part of our algorithm which outperforms other existing clustering methods such as DNACLUST and CD-HIT-EST in clustering short sequences. A scoring system was needed to determine how much a cluster is close to being a real motif. Multiple features are calculated based on the contents of each cluster to determine the score of the cluster. These features contain a set of divergence measures, positional, and occurrence information. These scores are combined in a way that a trade-off between them determines the clusters situation. There is an option to compare the final results with the motif databases such as Jolma2013, and UniProbe using Tomtom motif comparison tool. Algorithm Evaluation has been performed on three datasets from ABS database - Keywords:
- Motif ; Clustering ; DNA Sequencing ; Machine Learning ; Trascription Factor Binding Sites (TFBS)
- محتواي کتاب
- view
- چکیده
- فهرست مطالب
- فهرست جدولها
- فهرست شکلها
- فصل1 معرفی پژوهش
- فصل2 مبانی نظری
- 2-1 مقدمه
- 2-2 تعاریف ریاضی
- 2-2-1 فاصلهی Kullback-Liebler (KL)
- 2-2-2 فاصلهی Jensen-Shannon (JS)
- 2-2-3 فاصلهی Levenshtein
- 2-2-4 روش بیسرپرست One-Class SVM20F برای شناسایی دادههای خارج از محدوده21F
- 2-2-5 روش Isolation Forest یا iForest برای شناسایی دادههای خارج از محدوده
- 2-2-6 آزمایش23F آماری Chi-square
- 2-2-7 اندیس Dunn
- 2-2-8 اندیس Silhouette
- 2-3 دادههای ChIP-Seq
- 2-4 نمایش و کمّیسازی موتیف
- 2-5 نکاتی مفید برای استفاده از روشهای یادگیری ماشین
- 2-6 نتیجهگیری
- فصل3 پیشینهی پژوهش
- 3-1 مقدمه
- 3-2 الگوریتمهای با هدف مشابه با الگوریتم پیشنهادی
- 3-3 الگوریتمهای مبتنی بر همردیفی چندگانه46F
- 3-4 الگوریتم مبتنی بر یادگیری عمیق51F -الگوریتم DeepBind
- 3-5 الگوریتمهای خاص دادهی ChIP-seq
- 3-6 الگوریتمهای خاص موتیفهای ترکیبی77F
- 3-7 الگوریتم مبتنی بر الگوریتم ژنتیک85F - الگوریتم GAPK
- 3-8 الگوریتم خاص دادهی HT-SELEX88F – الگوریتم FastMotif
- 3-9 الگوریتمهای خاص چالش موتیف کاشتهشده92F
- 3-10 الگوریتم مبتنی بر ماتریس وزن – ابزار MatInspector
- 3-11 یافتن موتیف با استفاده از ژنومیک مقایسهای
- 3-12 الگوریتم بهبودیافته با شکل100F DNA
- 3-13 نتیجهگیری
- فصل4 روش پژوهش
- فصل5 نتایج
- فصل6 نتیجهگیری و پیشنهادها
- منابع یا مراجع