JET School

Data Leakage nədir?

Data Leakage — yəni məlumat sızması, maşın öyrənməsi modellərinin hazırlanması zamanı gələcəkdə əldə olunmalı məlumatların (yəni test zamanı mövcud olmalı olan məlumatların) təsadüfən təlim (train) mərhələsinə daxil olması halıdır. Bu, modelin nəticələrini süni şəkildə yaxşılaşdırır və real həyatda tətbiq edildikdə performansın kəskin şəkildə azalmasına səbəb olur.

Sadə desək: model, əvvəldən bilməməli olduğu məlumatı “gizlicə” öyrənmiş olur.

Nə üçün təhlükəlidir?

Data leakage olduqda, model təlim zamanı test və ya hədəf məlumatları ilə qarşılaşır və bu, onu “aldadır”. Nəticədə:

  • Sınaq zamanı yüksək nəticələr əldə olunur, amma
  • Əsl (real) verilənlər üzərində performans çox zəif olur.

Bu, modelin overfitting — yəni yalnız məlum məlumatlara uyğunlaşması, amma ümumiləşdirmə qabiliyyətinin olmaması — ilə nəticələnir.

Nümunə ilə izah:

Tutaq ki, xərçəngin diaqnozu üçün model qurursunuz. Məlumat dəstində belə bir sütun var:

“Nəticə: xəstə əməliyyat olubmu?”

Əgər siz bu sütunu təlim məlumatına daxil etsəniz, model birbaşa olaraq nəticəni öyrənmiş olacaq (çünki əksər hallarda yalnız xəstələr əməliyyat olunur). Bu zaman model çox yüksək dəqiqliklə cavab verir, amma bu, aldadıcıdır.

Data Leakage necə baş verir?

1. Təlim və test məlumatlarının qarışması

Təsadüfi bölmə zamanı məlumatların təkrar və ya üst-üstə düşməsi.

→ Məsələn, eyni şəxsin həm train, həm də test datasında olması.

2. Gələcək məlumatların əvvəlcədən daxil edilməsi

Modelə gələcək nəticə və ya nəticə ilə birbaşa əlaqəli göstəricilər verilir.

→ Məsələn, "müştəri borcunu ödəyibmi?" kimi nəticəni əks etdirən sütunun olması.

3. Data preprocessing zamanı sızma

Verilənlərin əvvəlcədən emalı zamanı bütün məlumatlara əsaslanaraq statistik göstəricilərin (orta, standart sapma və s.) hesablanması və onların train test ayrılmadan tətbiqi.

Necə qarşısını almaq olar?

Train və Test bölməsini düzgün aparın.

Heç bir halda test məlumatı təlim zamanı istifadə olunmamalıdır.

Feature selection zamanı ehtiyatlı olun.

Yalnız əvvəlcədən bilinən və nəticəni əks etdirməyən atributlar istifadə olunmalıdır.

Data preprocessing-i yalnız train məlumatları üzərində aparın.

Orta və normalizasiya parametrləri yalnız təlim datası əsasında hesablansın və sonra test datasına tətbiq olunsun.

Domain biliklərindən istifadə edin.

Bəzən yalnız sahə mütəxəssisləri data leakage-in hansı sütunlarda ola biləcəyini anlaya bilir.

Nəticə:

Data Leakage — maşın öyrənməsində çox ciddi və bəzən gözə görünməyən bir problemdir. Əgər vaxtında aşkarlanmasa, modelin real həyatda istifadəsini tamamilə yararsız edə bilər. Bu səbəbdən, məlumatların düzgün ayrılması, analiz və xüsusilə preprocessing mərhələlərində yüksək diqqət yetirilməlidir.

Teqlər:

IT sahəsini dərindən öyrənmək üçün kurslarımıza qoşulun. Ətraflı məlumat almaq üçün sorğu göndərin!