Loading...
A Semi-Supervised Ensemble Learning Algorithm for Nonstationary Data Streams Classification
Hosseini, Mohammad Javad | 2012
1587
Viewed
- Type of Document: M.Sc. Thesis
- Language: Farsi
- Document No: 44001 (19)
- University: Sharif University of Technology
- Department: Computer Engineering
- Advisor(s): Beigy, Hamid
- Abstract:
- Recent advances in storage and processing, have provided the ability of automatic gathering of information which in turn leads to fast and contineous flow of data. The data which are produced and stored in this way, are named data streams. data streams have many applications such as processing financial transactions, the recorded data of various sensors or the collected data by web sevices. Data streams are produced with high speed, large size and much dynamism and have some unique properties which make them applicable in precise modeling of many real data mining applications. The main challenge of data streams is the occurrence of concept drift which can be in four types: sudden, gradual, incremental or recurring. In addition, regarding the costs of labeling of the instances, it is often assumed that only a fraction of the instances are labeled. The goal of this thesis which is titled “A semi-supervised nsemble learning algorithm for non-stationary data streams classification”is to use ensemble algorithms to classify the instances in an environment with the mentioned properties. In this thesis, a new algorithm for semi-supervised classification of non-stationary data streams is presented which uses ensemble classifiers. This method, using the ensemble classifiers, is intended to recognize the recurring concepts of data streams and use them in classifying the instances. Recurring concepts detection is used to improve the existing algorithms which lack this mechanism or do not properly recognize or use the concepts. A pool of classifiers is maintained by the algorithm. Each of the classifiers is the representative of a concept. Batches of instances are classified by the algorithm. Thereafter, the instances along with their revealed labels are used to update the classifiers of the pool. First, a supervised version of the algorithm is presented and compared with the supervised methods.Then,semi-Supervised version of the algorithm is presented which has some differences from the supervised one. This algorithm uses the unlabeled instances beside the labeled ones in the learning task. Performed experiments show the effectiveness of the supervised and semi-supervised versions of the algorithm over the existing methods and regarding different aspects
- Keywords:
- Data Stream ; Ensemble Learning ; Concept Drift ; Semi-Supervised Learning ; Recurring Concepts
-
محتواي کتاب
- view
- مقدمه
- جویبارهای داده
- ویژگیهای جویبارهای داده
- تغییر مفهوم
- انواع تغییر مفهوم
- ویژگیهای مورد نیاز یادگیر جویبارهای داده
- الگوریتمهای یادگیری
- طبقهبندی الگوریتمهای یادگیری با توجه به برچسب دادهها
- شرط لازم یادگیری نیمهنظارتی
- مدلهای موجود یادگیری نیمهنظارتی
- طبقهبندی الگوریتمهای یادگیری با توجه به تعداد دستهبندها
- الگوریتمهای گروهی
- طبقهبندی الگوریتمهای یادگیری با توجه به برچسب دادهها
- مروری بر پژوهشهای پیشین
- روشهای تشخیص تغییر مفهوم
- تشخیص تغییر مفهوم با استفاده از تک دستهبندها
- تشخیص تغییر مفهوم با استفاده از دستهبندهای گروهی
- دستهبندی جویبارهای داده در حضور تغییر مفهوم
- دستهبندی نیمهنظارتی جویبارهای داده در حضور تغییر مفهوم
- چالشهای موجود
- شیوه ارزیابی
- معیارهای ارزیابی روش ارائه شده
- مجموعه دادهها
- شیوه آزمایش الگوریتم
- روشهای تشخیص تغییر مفهوم
- استفاده از یک استخر دستهبند جهت دستهبندی جویبارهای داده
- روش پیشنهادی نظارتی
- فاز 1: دستهبندی بسته
- فاز 2: بهروز رسانی استخر دستهبندها
- فاز 3: تعیین دستهبند فعال یا وزن دستهبندها
- نتایج تجربی
- مجموعه دادهها
- تنظیم پارامترها
- نتایج و بحث
- جمعبندی
- روش پیشنهادی نظارتی
- استفاده از یک استخر دستهبند جهت دستهبندی نیمهنظارتی جویبارهای داده
- روش پیشنهادی نیمهنظارتی
- فاز 1: دستهبندی بسته
- فاز 2: به روز رسانی استخر دستهبندها
- فاز 3: تعیین وزن دستهبندها
- دستهبند بر پایه خوشه
- ساختار دستهبند بر پایه خوشه و فرضیات انجام شده
- شیوه بهروز رسانی دستهبند بر پایه خوشه
- چگونگی بهروز رسانی افزایشی دستهبند بر پایه خوشه
- شیوه دستهبندی یک نمونه
- نتایج تجربی
- مجموعه دادهها
- تنظیم پارامترها
- صحت الگوریتمها
- بررسی تأثیر نسبت دادههای برچسب دار به کل دادهها بر کارایی
- دلیل کارایی روش نیمهنظارتی و خطاهای موجود
- جمعبندی
- روش پیشنهادی نیمهنظارتی
- جمعبندی و کارهای آینده
- مراجع
