Loading...
Semi-supervised Breast Cancer Subtype Clustering Using Microarray Datasets
Vasei, Hamed | 2016
1500
Viewed
- Type of Document: M.Sc. Thesis
- Language: Farsi
- Document No: 48963 (19)
- University: Sharif University of Technology
- Department: Computer Engineering
- Advisor(s): Motahhari, Abolfazl
- Abstract:
- Gene expression microarrays can be used for precision medicine and targeted therapies. The data generated by microarrays are high-dimensional causing statistical inference of any parameter a daunting task. In this thesis, it is shown that regardless of high-dimensional datasets produced by microarrays, the inference can be robust in the sense that random selection of features results in the same conclusion as far as the number of selected features are chosen appropriately. Stratifying patients with breast cancer based on their gene expression levels shows that patient subtypes are almost independent of the feature selection strategy. Moreover, using less noisy datasets coming from RNAseq platforms does not change the subtypes substantially. This is an important result indicating the power of microarray and RNAseq platforms is the same leading to same clinical course actions.Subtypes obtained from unsupervised clustering, also have biological meaning. For example two robust and stable subtypes are found. The first class is the well known triple negative case which is ER-/PR-/HER2-. The second class, can be identified by ER-/PR-/HER2+. This is an important finding as it reveals these three features can identify the subclasses of interests. In a supervised manner, a set of features is selected. In fact, biological labels are used to choose a set of genes that are highly correlated to the labels. To our surprises, it is shown that the stratification is still robust
- Keywords:
- Breast Cancer ; Microarray ; Clustering ; Gene Expression Data ; Cancer Subtypes ; Statistical Inference ; Computational Genomics
-
محتواي کتاب
- view
- فهرست مطالب
- مقدمات زیستی
- زیست شناسی سرطان
- اصل اساسی زیست شناسی
- تکامل
- جهش و محتوای ژنتیکی
- مسیرهای زیستی
- سرطان
- ناهمگونی و زیرنوعهای سرطان
- سلولهای بنیادی سرطانی
- سرطان سینه
- اندازهگیری بیان ژن
- میکروآرایه
- RNA-Seq
- RT-qPCR
- تعریف مسأله
- زیست شناسی سرطان
- مقدمات یادگیری ماشینی و آماری
- یادگیری نیمه-نظارتی
- کاهش ابعاد
- fold-change
- مباحثی در آزمون فرض و کنترل خطا
- t-test
- ANOVA
- مشکل آزمونهای چندگانه
- بررسی همخوانی و کیفیت دستهها
- منحنی ROC
- MCC
- آمارهی Kappa
- IGP
- تحلیل بقا
- مثالهایی از روشهای موفق
- SAM
- PAM
- مباحث تکمیلی
- Bootstrap
- نسبت شانس
- مرور کاربردهای پروفایل بیان ژنها در بررسی زیرنوعهای سرطان
- کارایی استفاده از بیان ژنها در تعیین زیرنوعها
- زیرنوعهای سرطان سینه بر اساس بیان ژنها
- تعریف زیرنوع
- روشهای کاهش ابعاد
- آزمونهای مبتنی بر امضاهای ژنی
- روشهای نیمه-نظارتی
- ارزیابی دستهبندیهای تعریف شده و چالشهای آنها
- بررسی کیفیت زیرنوعها و همخوانی آنها
- ملاحظاتی در مورد امضاهای ژنی در مورد خروجیهای بالینی سرطان
- زیرنوعها و ناهمگونی
- دادهها
- جمعبندی
- خوشهبندی و نتایج آن
- خوشهبندی دادهها
- معرفی دادهها
- خوشهبندی و بررسی خوشهها
- فیلتر کردن بر اساس همخوانی دادههای میکروآرایه و RNAseq
- بررسی همبستگی دادههای میکروآرایه و RNAseq
- بحث و بررسی نتایج
- خوشهبندی دادهها
- جمعبندی
- toمراجع