JET School

Dataset nədir?

Dataset (Verilənlər toplusu) — məlumatların müəyyən struktura salınmış şəkildə təşkil olunduğu, analiz, modelləşdirmə və ya digər məlumat əsaslı proseslər üçün istifadə edilən əsas məlumat vahididir. Dataset adətən cədvəl formasında təqdim olunur: satırlar müşahidələri (nümunələri), sütunlar isə xüsusiyyətləri (atributları) təmsil edir. Hər bir satır bir hadisəni və ya obyekti əks etdirir, hər sütun isə həmin obyekt haqqında konkret bir məlumatı daşıyır.

Dataset-in əsas xüsusiyyətləri:

  • Strukturlaşdırılmış məlumat: Verilənlər toplusu adətən cədvəl formatında olur, bu isə onu emal etməyi və analiz aparmağı asanlaşdırır.
  • Mənbə müxtəlifliyi: Dataset-lər müxtəlif mənbələrdən toplanmış ola bilər — sorğular, sensorlar, veb-saytlar, tətbiqlər və s.
  • Format müxtəlifliyi: Dataset-lər CSV, JSON, Excel, SQL verilənlər bazaları və ya digər formatlarda saxlanıla bilər.
  • Ölçü və həcmi: Dataset-lər kiçik (bir neçə on müşahidə) və ya çox böyük (milyonlarla satır və yüzlərlə sütun) ola bilər. Böyük verilənlər üçün "Big Data" anlayışı da tətbiq olunur.

Dataset-lər harada istifadə olunur?

  • Data Science və Machine Learning: Model qurmaq üçün əvvəlcə keyfiyyətli və təmizlənmiş dataset tələb olunur.
  • Statistik analiz: İcmal, təsviri statistika və hipotez yoxlamaları üçün məlumatlar dataset şəklində istifadə olunur.
  • Vizualizasiya: Qrafiklər və diaqramlar yaratmaq üçün məlumat mənbəyi kimi istifadə olunur.
  • Biznes qərarlarının verilməsi: Müştəri davranışı, satış trendləri və ya maliyyə göstəriciləri üzrə analizlər aparmaq üçün dataset-lərdən istifadə olunur.

Dataset-lə işləməkdə əsas mərhələlər:

  1. Toplama (Data Collection): Məlumatların müxtəlif mənbələrdən əldə olunması.
  2. Təmizləmə (Data Cleaning): Boş, yanlış və ya uyğunsuz məlumatların aradan qaldırılması.
  3. Transformasiya (Data Transformation): Məlumatların formatlaşdırılması və istifadəyə hazır hala gətirilməsi.
  4. Analiz və modelləşdirmə: Dataset əsasında məlumatların təhlili və nəticələrin çıxarılması.

Dataset-lər data science sahəsinin bünövrəsini təşkil edir və keyfiyyətli nəticə əldə etmək üçün doğru və strukturlaşdırılmış məlumatlarla işləmək çox vacibdir.

Əlaqəli terminlər:

IT sahəsini dərindən öyrənmək üçün kurslarımıza qoşulun. Ətraflı məlumat almaq üçün sorğu göndərin!