Loading...
- Type of Document: Ph.D. Dissertation
- Language: Farsi
- Document No: 44385 (19)
- University: Sharif University of Technology
- Department: Computer Engineering
- Advisor(s): Habibi, Jafar
- Abstract:
- Peer-to-peer (P2P) computing is a popular distributed computing paradigm for many applications which in-volve exchange of information among a large number of peers. In such applications, large amount of data is distributed among multiple dispersed sources. Therefore, data analysis is challenging due to processing, storage and transmission costs. Moreover, the data rarely remains static and frequent data changes, quickly out date previously extracted data mining models. Distributed data mining deals with the problem of data analysis in environments with distributed data and computing resources. In this dissertation, we explore distributed data mining in different structures of P2P systems. In structured P2P systems, L-overlay is proposed for indexing data, and processing complex queries in P2P systems. The overlay is later used for K-nearest neighbor and Naïve bayes classification.In unstructured P2P systems, gossiping proves to be an effective yet simple communication mean, which can also adapt to dynamics in the system. This communication paradigm enabled us to devise GoSCAN, a decentralized density-based clustering method which is adaptive to churn. The model is further extended to the novel decentralized algorithm GDCluster, which, to the best of our knowledge, is the first truly decentralized and adaptable clustering methodpplicable for different clustering algorithms. The proposed methods enjoy scalability and incremental adaptation in presence of dynamics. Analysis of the algorithms and extended simulation results, show the robustness, effectiveness and scalability of the proposed methods under static and dynamic settings, with different data assignment strategies. Also different state-of-the-art methods such as SSW and LSP2P are employed for comparison purposes
- Keywords:
- Data Mining ; Data Management ; Distributed Algorithm ; Distributed Clustering ; Dynamical Systems ; Peer-to-Peer Network ; Overlay Network
-
محتواي کتاب
- view
- مقدمه
- پیشینه پژوهش
- ویژگیهای دادهکاوی نظیر-به-نظیر
- دستهبندی الگوریتمهای دادهکاوی نظیر-به-نظیر
- مروری بر روشهای دادهکاوی توزیعشده
- سیستمهای نظیر-به-نظیر ساختیافته
- شاخصگذاری داده و پردازش پرسوجوهای پیچیده
- کاوش قوانین انجمنی
- ردهبندی
- خوشهبندی
- سیستمهای نظیر-به-نظیر نیمهساختیافته با تجمیعکننده مرکزی
- ردهبندی
- خوشهبندی
- سیستمهای نظیر-به-نظیر غیرساختیافته
- توابع پایه
- کاوش قوانین انجمنی
- ردهبندی
- PACE
- خوشهبندی
- جمعبندی
- بررسی مقدماتی اجرای الگوریتمهای دادهکاوی در سیستمهای نظیر-به-نظیر
- رویکردهای اجرای الگوریتمهای دادهکاوی نظیر-به-نظیر
- معماری ساختیافته
- معماری غیر ساختیافته
- الگوریتم توزیعشده حافظ محلیت برای کاهش ابعاد داده
- تعاریف و پیشنیازها
- الگوریتم DLPR
- پردازش پرسوجو در فضای کاهشیافته
- جمعبندی
- کشف مجموعه عناصر مکرر در سیستم نظیر-به-نظیر غیرساختیافته
- تعریف مسئله
- کشف توزیعشده مجموعه عناصر مکرر
- جمعبندی
- نتیجهگیری
- رویکردهای اجرای الگوریتمهای دادهکاوی نظیر-به-نظیر
- کاوش دادهها با استفاده از ساختارهای معنایی در سیستمهای نظیر-به-نظیر
- مقدمه
- L-overay: روگستری لایهای برای مدیریت و شاخصگذاری داده
- L-overlay
- کاربردها
- ارزیابی
- جمعبندی
- کاوش دادهها در سیستمهای غیر ساختیافته
- مقدمه
- GoScan: خوشهبندی توزیعشده مبتنی بر چگالی
- مفاهیم پایه
- دی بی اسکن
- مدل سیستم
- الگوریتم پایه خوشهبندی توزیعشده
- پویایی مجموعه داده
- بهبود
- شناسایی
- ترکیب
- نرخ همگرایی
- ارزیابی کارایی
- تنظیمات شبیهسازی
- معیارهای ارزیابی
- نتایج شبیهسازی
- جمعبندی
- روش عمومی خوشهبندی توزیعشده
- مقدمه
- مدل سیستم
- الگوریتم خوشهبندی توزیعشده
- ایجاد نمای خلاصه
- محاسبه وزن
- خوشهبندی نهایی
- مقابله با پویایی
- ارزیابی اولیه الگوریتم
- مدل ارزیابی
- معیارهای ارزیابی
- نتایج شبیهسازی
- بهبودها
- خلاصهسازی
- هزینه ارتباطی
- ارزیابی الگوریتم
- نتایج شبیهسازی
- نتیجهگیری
- نتیجهگیری و کارهای آتی
