Loading...
Improving the Scalability of the DBSCAN Clustering Algorithm using Intelligent Histogram-Based Partitioning
Nouradini, Mahdi | 2025
0
Viewed
- Type of Document: M.Sc. Thesis
- Language: Farsi
- Document No: 58482 (05)
- University: Sharif University of Technology
- Department: Electrical Engineering
- Advisor(s): Bayat, Siavash
- Abstract:
- The density-based clustering algorithm, DBSCAN, is widely recognized for its unique ability to identify arbitrarily shaped clusters and handle noise. However, with the exponential growth of data in modern applications, the algorithm's high computational complexity has become a significant bottleneck, limiting its scalability for large datasets. This research addresses this challenge by introducing and evaluating a novel hybrid clustering algorithm, named HB-DBSCAN. The proposed method is based on a "divide and conquer" strategy, with its core innovation lying in a fast and non-iterative partitioning process driven by one-dimensional histogram analysis. In this algorithm, the natural boundaries between dense regions are first identified by analyzing the structure of a key feature's histogram. These boundaries are then used to intelligently partition the entire dataset into smaller subsets, upon which the standard DBSCAN algorithm is executed locally. The theoretical foundation of this approach is based on the assumption that the histogram serves as a non-parametric estimate of an underlying Gaussian Mixture Model. For performance evaluation, the HB-DBSCAN algorithm was implemented and tested on six standard datasets from the UCI repository, and its results were compared against standard DBSCAN and K-DBSCAN. The experimental results demonstrate that the proposed algorithm is significantly faster than both alternatives, achieving a runtime improvement of up to $96\%$ over standard DBSCAN on large datasets. Furthermore, this increase in efficiency did not come at the cost of quality; in most cases, the clustering quality, measured by internal validation indices such as the Silhouette score, was either maintained or substantially improved. Ultimately, this research demonstrates that intelligent partitioning based on histogram density analysis is an effective, efficient, and powerful strategy for solving the scalability problem of density-based algorithms, making it a viable pre-processing step in big data analysis pipelines
- Keywords:
- Clustering ; Density-based Spatial Clustering Applicoction with Noise (DBSCAN) ; Big Data Proccessing ; Hybrid Algorithm ; Scalability ; Histogram Analysis ; Big Data Analytics ; Partitioning
-
محتواي کتاب
- view
- مقدمه
- بیان مسئله و طرح موضوع
- اهمیت و ضرورت پژوهش
- ادبیات موضوع
- اهداف و سوالات پژوهش
- اهداف پژوهش
- سوالات پژوهش
- روششناسی پژوهش
- ساختار پایاننامه
- مفاهیم اولیه
- مقدمه
- خوشهبندی: تعاریف و اصول
- معیارهای فاصله
- معیارهای ارزیابی کیفیت خوشهبندی
- انواع روشهای خوشهبندی
- کاربردهای خوشهبندی
- دستهبندی الگوریتمهای خوشهبندی
- خوشهبندی تقسیمی
- خوشهبندی سلسله مراتبی
- خوشهبندی مبتنی بر چگالی
- خوشهبندی مبتنی بر شبکه
- خوشهبندی مبتنی بر مدل
- بررسی الگوریتمهای بنیادی
- مجموعهداده شبیهسازی شده برای ارزیابی عملکرد
- *clustering به روش K-Means
- *clustering به روش *expectationmaximization
- *clustering به روش *dbscan
- *clustering به روش *optics
- *clustering به روش *hdbscan
- *clustering به روش *agglomerative
- جمعبندی و مقایسه نهایی الگوریتمها
- هیستوگرام به عنوان ابزار تحلیل داده
- هیستوگرام به عنوان داده نمادین
- مقایسه و میانگینگیری از هیستوگرامها
- چالشهای استفاده از هیستوگرام در *clustering
- جمعبندی
- کارهای پیشین
- مقدمه
- مروری بر روشهای خوشهبندی برای دادههای بزرگ
- روشهای خوشهبندی مبتنی بر یک ماشین واحد
- روشهای خوشهبندی مبتنی بر چندین ماشین
- بررسی رویکردهای ترکیبی و انطباقی اخیر
- الگوریتم K-DBSCAN
- الگوریتم DDBC
- الگوریتم DBSCAN Speedup
- جمعبندی و شناسایی شکاف پژوهشی
- روش پیشنهادی: یک الگوریتم خوشهبندی ترکیبی مبتنی بر هیستوگرام و *dbscan
- مقدمه
- معماری کلی الگوریتم HB-DBSCAN
- شرح دقیق مراحل الگوریتم
- گام اول: پیشپردازش و انتخاب ویژگی
- گام دوم: تحلیل هیستوگرام و شناسایی *cut point
- گام سوم: پارتیشنبندی دادهها و اجرای محلی *dbscan
- شبهکد و تحلیل پیچیدگی
- شبهکد الگوریتم HB-HDBSCAN
- تحلیل پیچیدگی محاسباتی
- جمعبندی
- آزمایشها و ارزیابی نتایج
- مقدمه
- محیط پیادهسازی و *dataset
- مشخصات سختافزاری و نرمافزاری
- مجموعه دادههای مورد استفاده
- ارائه و تحلیل نتایج
- مقایسه زمان اجرا
- مقایسه کیفیت خوشهبندی
- جمعبندی
- جمعبندی و کارهای آینده
- جمعبندی و مرور کلی پژوهش
- پاسخ به سوالات پژوهش و دستاوردهای اصلی
- محدودیتها و پیشنهادها برای کارهای آینده
- مروری بر سایر معیارهای فاصله
- فاصله اقلیدسی استانداردشده
- فاصله منهتن
- فاصله ماهالانوبیس
- فاصله کسینوسی
- فاصله همبستگی
- جزئیات ریاضی تحلیل دادههای هیستوگرامی
- روابط زمانی و آمارههای توصیفی پایه
- تعریف رسمی متغیر هیستوگرامی
- تابع توزیع تجمعی (CDF) و تابع چندک
- آماره توصیفی
- تحلیل مبتنی بر سنجه: مقایسه و میانگینگیری از هیستوگرامها
- فاصله L2-Wasserstein
- هیستوگرام میانگین
- روابط زمانی و آمارههای توصیفی پایه
- مراجع
- واژه نامه انگلیسی به فارسی
- واژه نامه فارسی به انگلیسی
