Dataset (Verilənlər toplusu) — məlumatların müəyyən struktura salınmış şəkildə təşkil olunduğu, analiz, modelləşdirmə və ya digər məlumat əsaslı proseslər üçün istifadə edilən əsas məlumat vahididir. Dataset adətən cədvəl formasında təqdim olunur: satırlar müşahidələri (nümunələri), sütunlar isə xüsusiyyətləri (atributları) təmsil edir. Hər bir satır bir hadisəni və ya obyekti əks etdirir, hər sütun isə həmin obyekt haqqında konkret bir məlumatı daşıyır.
Dataset-in əsas xüsusiyyətləri:
- Strukturlaşdırılmış məlumat: Verilənlər toplusu adətən cədvəl formatında olur, bu isə onu emal etməyi və analiz aparmağı asanlaşdırır.
- Mənbə müxtəlifliyi: Dataset-lər müxtəlif mənbələrdən toplanmış ola bilər — sorğular, sensorlar, veb-saytlar, tətbiqlər və s.
- Format müxtəlifliyi: Dataset-lər CSV, JSON, Excel, SQL verilənlər bazaları və ya digər formatlarda saxlanıla bilər.
- Ölçü və həcmi: Dataset-lər kiçik (bir neçə on müşahidə) və ya çox böyük (milyonlarla satır və yüzlərlə sütun) ola bilər. Böyük verilənlər üçün "Big Data" anlayışı da tətbiq olunur.
Dataset-lər harada istifadə olunur?
- Data Science və Machine Learning: Model qurmaq üçün əvvəlcə keyfiyyətli və təmizlənmiş dataset tələb olunur.
- Statistik analiz: İcmal, təsviri statistika və hipotez yoxlamaları üçün məlumatlar dataset şəklində istifadə olunur.
- Vizualizasiya: Qrafiklər və diaqramlar yaratmaq üçün məlumat mənbəyi kimi istifadə olunur.
- Biznes qərarlarının verilməsi: Müştəri davranışı, satış trendləri və ya maliyyə göstəriciləri üzrə analizlər aparmaq üçün dataset-lərdən istifadə olunur.
Dataset-lə işləməkdə əsas mərhələlər:
- Toplama (Data Collection): Məlumatların müxtəlif mənbələrdən əldə olunması.
- Təmizləmə (Data Cleaning): Boş, yanlış və ya uyğunsuz məlumatların aradan qaldırılması.
- Transformasiya (Data Transformation): Məlumatların formatlaşdırılması və istifadəyə hazır hala gətirilməsi.
- Analiz və modelləşdirmə: Dataset əsasında məlumatların təhlili və nəticələrin çıxarılması.
Dataset-lər data science sahəsinin bünövrəsini təşkil edir və keyfiyyətli nəticə əldə etmək üçün doğru və strukturlaşdırılmış məlumatlarla işləmək çox vacibdir.