Loading...
Robust Learning to Spurious Correlation without Access to Side Information of the Environment
Ghaznavi, Mahdi | 2025
0
Viewed
- Type of Document: M.Sc. Thesis
- Language: Farsi
- Document No: 58193 (19)
- University: Sharif University of Technology
- Department: Computer Engineering
- Advisor(s): Rohban, Mohammad Hossein; Soleymani Baghshah, Mahdieh
- Abstract:
- Traditionally, machine learning models for classification tasks rely on statistical methods to find correlations between patterns in the input data and their correspond- ing labels. However, these correlations are not necessarily consistent across different data partitions and may change at test time. Such unstable correlations are referred to as spurious correlations. When the spurious correlation relied upon during training changes at test time, the model’s accuracy can degrade. To improve robustness to shifts in spurious correlations, most research in this area assumes that group annota- tions based on different values of the spurious attribute are available during training or validation. In this context, a ”group” is defined as a set of samples with the same label and a particular spurious attribute. However, when group labels are unavailable or the spurious correlations are unknown, existing methods become inapplicable. This research introduces Environment-based Validation and Loss-based Sampling (EVaLS) as a fully annotation-free approach to overcome these limitations. The method identi- fies high- and low-loss samples from a model trained using Empirical Risk Minimization (ERM) in order to construct a balanced dataset. This approach improves robustness to correlation shift in 3 out of 5 benchmarks compared to peer methods with group super- vision. Then, using environment inference, it constructs environments with correlation shifts, without requiring any labeled validation data. By using worst-environment ac- curacy as a surrogate for worst-group accuracy in model selection, EVaLS guides the retraining of the last linear layer of the pre-trained model, leading to improved ro- bustness against spurious correlations. The proposed approach achieves competitive robustness compared to methods that require group labels. Moreover, the absence of any need for group labels at any stage enables EVaLS to handle unknown spurious correlations—a key advantage over existing methods. This makes EVaLS particularly suitable for real-world scenarios involving complex and multiple spurious correlations. This is demonstrated by a 15.9% increase in the worst group accuracy of the method proposed in this thesis compared to the best known method that relies on spurious correlation
- Keywords:
- Out-Of-Distribution Generalization ; Robustness ; Spurious Correlation ; Causality ; Unknown Spurious Correlations ; Subpopulation Shift ; Invariant Learning
-
محتواي کتاب
- view
- مقدمه
- تعریف مسئله
- ادبیات موضوع
- اهداف پژوهش
- اهمیت پژوهش
- ساختار پایاننامه
- مفاهیم اولیه
- صورتبندی همبستگی جعلی
- چارچوب کلی برای جابهجایی زیرجمعیت
- انواع پایهی جابهجایی زیرجمعیت
- همبستگی جعلی
- دادگان
- دادگان پرندگان آبی (Waterbirds)
- دادگان افراد مشهور (CelebA)
- دادگان خودروهای شهری (UrbanCars)
- دادگان استنتاج زبان طبیعی چند سبکی (MultiNLI)
- دادگان دیدگاههای مدنی (CivilComments)
- جمعبندی دادگان
- مفهوم محیط و یادگیری ناوردا
- جمعبندی
- صورتبندی همبستگی جعلی
- کارهای پیشین
- روشهای پیشین مقاومت نسبت به همبستگی جعلی
- روشهای با فرض دسترسی به گروهبندی دادگان آموزش
- روشهای بدون فرض دسترسی به گروهبندی دادگان آموزش
- جمعبندی روشها
- یادگیری ناوردا
- استنتاج محیط برای یادگیری ناوردا
- جمعبندی
- روشهای پیشین مقاومت نسبت به همبستگی جعلی
- روش پیشنهادی
- نمونهبرداری زیانمبنا
- مشاهدات اولیه
- شیوهی پیادهسازی نمونهبرداری
- سنجش محیطمبنا
- مشاهدات اولیه
- انتخاب مدل بر مبنای محیطهای استنتاج شده
- جمعبندی
- نمونهبرداری زیانمبنا
- همبستگی جعلی ناشناخته
- Dominoes-CMF
- CelebA-SHSG
- جمعبندی
- آزمایشها
- دادگان
- همبستگی جعلی ناشناخته
- روشهای مورد مقایسه
- تنظیمات
- نتایج
- مقاومت به همبستگی جعلی ناشناخته
- مطالعات فرسایشی
- حساسیت به فراپارامترها
- سنجش محیطمبنا در ترکیب با دیگر روشها
- مقایسهی انتخاب نمونههای با زیان بالا و نمونههای اشتباه دستهبندی شده
- دیگر روشهای استنتاج محیط
- جمعبندی
- دادگان
- نتیجهگیری
- جمعبندی
- محدودیتها
- کارهای آینده
- مراجع
- واژهنامه
