Multikollinearlıq — statistik analiz və xüsusilə reqressiya modellərində ortaya çıxan bir problemdir. Bu vəziyyət, bir və ya bir neçə müstəqil dəyişənin digər dəyişənlərlə güclü statistik əlaqədə olduğu zaman baş verir. Başqa sözlə, dəyişənlər bir-birini izah edə biləcək qədər oxşardırsa, multikollinearlıq problemi yaranır.
Niyə multikollinearlıq problemlidir?
Multikollinearlıq aşağıdakı problemlərə yol aça bilər:
- Modelin sabitliyi azalır.
- Dəyişənlərin təsirləri (koeffisiyentləri) düzgün qiymətləndirilmir.
- Standart səhvlər artır, nəticədə statistik etibarlılıq azalır.
- Modelin şərhi çətinləşir, çünki hansı dəyişənin çıxışa nə qədər təsir etdiyi qeyri-müəyyən olur.
Qısacası, multikollinearlıq olduqda, modelin verdiyi nəticələr təhrif olunmuş və etibarsız ola bilər.
Multikollinearlığın əlamətləri:
- Regressiya modelində R² yüksək, amma fərdi dəyişənlərin p-dəyərləri yüksəkdirsə, bu vəziyyət multikollinearlıq əlaməti ola bilər.
- Koeffisiyentlər qeyri-adi dərəcədə böyük və ya mənfi olur.
- Modelə yeni dəyişən əlavə etdikdə əvvəlki dəyişənlərin təsiri gözlənilmədən dəyişir.
Multikollinearlığı necə aşkarlamaq olar?
- Korelasiya Matrisi: Müstəqil dəyişənlər arasında güclü korelyasiya (məsələn, 0.8 və ya daha çox) varsa, bu potensial multikollinearlıq göstəricisidir.
- VIF (Variance Inflation Factor):
- Hər bir dəyişən üçün hesablanır. VIF > 5 (bəzən > 10) olduqda multikollinearlıq problemi olduğu düşünülür.
Multikollinearlığın aradan qaldırılması yolları:
- Yüksək korelyasiyalı dəyişənlərdən birini çıxarmaq.
- Əlaqəli dəyişənləri birləşdirib yeni dəyişən yaratmaq. (məsələn, PCA – Əsas Komponent Analizi ilə)
- Ridge və ya Lasso Regression kimi regulizə edilmiş modellərdən istifadə etmək.
Nümunə:
Tutaq ki, bir modeldə həm “təhsil müddəti” (il ilə) və “təhsil səviyyəsi” (məsələn, bakalavr, magistr) dəyişənləri var. Bu iki dəyişən bir-biri ilə yüksək əlaqəli ola bilər və eyni məlumatı daşıyır. Bu zaman modeldə multikollinearlıq yarana bilər.
Nəticə:
Multikollinearlıq — xüsusilə çoxsaylı dəyişənli statistik modellərdə diqqətlə izlənməli bir problemdir. Bu problemi vaxtında aşkarlamaq və düzgün aradan qaldırmaq modelin dəqiqliyini, şərh edilə bilməsini və etibarlılığını xeyli artırır.