Loading...
Single-Cell RNA-seq Dropout Imputation and Noise Reduction by Machine Learning
Moinfar, Amir Ali | 2019
1181
Viewed
- Type of Document: M.Sc. Thesis
- Language: Farsi
- Document No: 52816 (19)
- University: Sharif University of Technology
- Department: Computer Engineering
- Advisor(s): Soleymani Baghshah, Mahdih; Sharifi Zarchi, Ali; Goodarzi, Hani
- Abstract:
- Single-cell RNA sequencing (scRNA-seq) technologies have empowered us to study gene expressions at the single-cell resolution. These technologies are developed based on barcoding of single cells and sequencing of transcriptome using next-generation sequencing technologies. Achieving this single-cell resolution is specially important when the target population is complex or heterogeneous, which is the case for most biological samples, including tissue samples and tumor biopsies.Single-cell technologies suffer from high amounts of noise and missing values, generally known as dropouts. This complexity can affect a number of key downstream analyses such as differential expression analysis, reconstruction of cell trajectories, clustering, and etc. There are some methods to impute the dropouts and reduce the noise present in the data. However, we believe that these methods can be improved using new algorithms, which fit better to the current problem. In Addition, justification and benchmarking of previous methods are limited and a unified set of criteria to systematically evaluate the methods is missing.Thus, besides our work, we introduce a benchmarking framework for systematic evaluation of single-cell dropout imputation and noise reduction methods.Here, we introduce an attention-based deep neural network to impute the missing values and reduce the noise of scRNA-seq experiments. The key advantage of our method is its structure, which benefits from embedding of genes in a low-dimensional space. Simultaneous embedding of genes and cells along with the imputation task, Improves the performance and makes our model more interpretable. Besides the imputation, the problem of estimation of library sizes of cells is also targeted. Utilizing the introduced benchmarking framework, we have benchmarked and compared previous methods with our proposed method. The results suggest that the proposed methods work well, especially in experiments having unique molecule identifiers
- Keywords:
- Machine Learning ; Noise Reduction ; Benchmarking ; Error Correction ; RNA Sequencing ; Single Cell Sequencing ; Gene Expression Data ; Dropout Imputation
-
محتواي کتاب
- view
- 1 مقدمه
- 1-1 تعاریف و پیشنیازها
- 2-1 معرفی مساله
- 3-1 ویژگیهای داده و مسئله
- 3-1.1 حجم بالای داده
- 3-1.2 مشخص نبودن نقاط از قلم افتادگی
- 3-1.3 توزیع ویژهی نوفه
- 3-1.4 ارتباطات قوی میان ژنها
- 4-1 اهمیت و کاربردها
- 5-1 ساختار پایاننامه
- 2 پژوهشهای پیشین
- 1-2 دستهبندی روشها بر اساس نوع عملکرد
- 2-2 دستهبندی روشها بر اساس الگوریتم پیشبینی مقادیر
- 3-2 دستهبندی روشها بر اساس مدل نوفه
- 4-2 تشریح روشهای پیشین
- 4-2.1 روش BISCUIT
- 4-2.2 روش MAGIC
- 4-2.3 روش ZINB-WaVE
- 4-2.4 روش SAVER
- 4-2.5 روش scImpute
- 4-2.6 روش UNCURL
- 4-2.7 روش DrImpute
- 4-2.8 روش URSM
- 4-2.9 روش KNN-smoothing
- 4-2.10 روش netSmooth
- 4-2.11 روش SAUCIE
- 4-2.12 روش DECODE
- 4-2.13 روش VIPER
- 4-2.14 روش scVI
- 4-2.15 روش DCA
- 4-2.16 روش deepImpute
- 5-2 جمعبندی
- 3 چهارچوب ارزیابی
- 1-3 مقدمه
- 2-3 بازیابی مقادیر از قلم افتاده
- 3-3 حذف نوفه ناشی از نمونه برداری
- 4-3 بهبود فاصله و خوشهبندی در دادههای برچسب دار
- 5-3 حفظ اطلاعات چرخه یاختهای
- 6-3 شباهت به داده توالی یابی شده با عمق بالا
- 7-3 همخوانی با اطلاعات پروتئینها
- 4 راهکار پیشنهادی
- 1-4 مقدمات
- 2-4 ساختار کلی روش پیشنهادی
- 3-4 ساختار و اتصالات شبکهی اصلی
- 4-4 شبکه تغییر اندازهی سلولها
- 5-4 تابع خطا
- 6-4 تصحیح مقادیر
- 7-4 پیادهسازی
- 8-4 نکات در نظر گرفته شده
- 8-4.1 در نظر گرفتن مدل نوفه
- 8-4.2 حفظ اندازهی کتابخانهی سلولها
- 9-4 جمعبندی
- 5 ارزیابی
- 1-5 بازیابی مقادیر از قلم افتاده
- 2-5 حذف نوفه ناشی از نمونه برداری
- 3-5 بهبود فاصله و خوشهبندی در دادههای برچسب دار
- 4-5 حفظ اطلاعات چرخه یاختهای
- 5-5 شباهت به داده توالی یابی شده با عمق بالا
- 6-5 همخوانی با اطلاعات پروتئینها
- 7-5 جمعبندی
- 6 جمعبندی و کارهای آتی
- آ جداول و شکلهای بیشتر ارزیابی
- مراجع
- واژهنامه فارسی به انگلیسی
- واژهنامه انگلیسی به فارسی