JET School

Training Data nədir?

Training Data — Süni intellekt (AI) və maşın öyrənməsi (Machine Learning) proseslərinin ən əsas elementlərindən biridir və modelin öyrədilməsi üçün istifadə olunan məlumat toplusunu ifadə edir. Bu məlumatlar, modelin “təcrübə qazanması” üçün ona təqdim olunan nümunələrdir. Təlim məlumatları müxtəlif formalarda ola bilər: mətnlər, şəkillər, videolar, səs faylları, rəqəmlər və ya bu formatların kombinasiyası. Əgər model nəzarətli öyrənmə (supervised learning) üsulu ilə hazırlanırsa, təlim məlumatları həm giriş nümunələrindən (input) həm də onların düzgün cavablarından (label və ya target) ibarət olur.

Məsələn:

  • Şəkil tanıma sistemi üçün təlim məlumatları minlərlə şəkildən ibarət ola bilər və hər şəkil üzərində “pişik”, “it” və ya “quş” kimi etiketlər göstərilər.
  • Mətn emalı sistemi üçün təlim məlumatları minlərlə cümlə ola bilər və hər cümləyə “müsbət”, “mənfi” və ya “neytral” hissiyyat etiketi qoşula bilər.

Training Data-nın rolu:

Təlim məlumatları modelin nümunələr arasındakı əlaqələri, qaydaları və statistik asılılıqları aşkar etməsinə imkan yaradır. Model bu məlumatlar üzərində çoxsaylı təkrar-təkrar keçərək daxili parametrlərini (weights) tənzimləyir və nəticədə girişə uyğun düzgün cavab vermə qabiliyyəti qazanır.

Keyfiyyətli Training Data-nın əhəmiyyəti:

Təlim məlumatlarının keyfiyyəti modelin nəticələrinin dəqiqliyinə birbaşa təsir göstərir. Əgər təlim məlumatları:

  • Qərəzli (biased) olarsa, model də qərəzli nəticələr verəcək;
  • Natamam olarsa, model real həyatda qarşılaşdığı halları düzgün proqnozlaşdıra bilməyəcək;
  • Reallığı əks etdirməzsə, model praktiki istifadədə uğursuz ola bilər.

Buna görə də Training Data hazırlanarkən aşağıdakı prinsiplərə əməl olunur:

  1. Mövzu əhatəliliyi – Məlumatlar öyrədiləcək sahəni tam şəkildə əks etdirməlidir.
  2. Çeşidlilik – Məlumatlar müxtəlif nümunələrdən ibarət olmalıdır ki, model geniş situasiyaları öyrənsin.
  3. Keyfiyyət – Məlumatlar dəqiq, düzgün və təmizlənmiş (noise-free) olmalıdır.
  4. Qərəzsizlik – Məlumat toplusu sosial, mədəni və ya statistik qərəzlərdən azad olmalıdır.

Nəticə olaraq, Training Data süni intellekt modelinin öyrənmə mərhələsində onun “dərslik” rolunu oynayır. Necə ki, insan öyrənmək üçün nümunələrə və təcrübəyə ehtiyac duyur, AI modeli də düzgün və geniş təlim məlumatları olmadan effektiv şəkildə işləyə bilməz. Yaxşı seçilmiş və hazırlanmış Training Data, modelin gələcək performansının ən güclü təminatıdır.

IT sahəsini dərindən öyrənmək üçün kurslarımıza qoşulun. Ətraflı məlumat almaq üçün sorğu göndərin!