DATA PREPARATION
Data preparation merupakan proses mempersiapkan data mentah agar sesuai untuk proses dan analisis lebih lanjut, terutama dalam konteks bisnis. Langkah-langkah data preparation meliputi mengumpulkan data, membersihkan data, memberi label, dan mengeksplorasi data. Berikut adalah beberapa langkah umum dalam data preparation:
- Mengumpulkan data: Proses menghimpun data yang diperlukan untuk keperluan Machine Learning (ML). Pengumpulan data bisa rumit karena berasal dari berbagai sumber seperti laptop, data warehouse, cloud, aplikasi, dan perangkat lainnya. Volume data juga terus meningkat, sehingga pencarian data menjadi tantangan. Selain itu, format dan jenis data bervariasi tergantung pada sumbernya.
- Membersihkan data: Tahap ini melibatkan menghapus atau memperbaiki data yang tidak valid, tidak lengkap, tidak akurat, atau tidak relevan. Data cleaning bertujuan meningkatkan kualitas data dan mengurangi bias serta kesalahan dalam analisis. Tugas-tugas data cleaning meliputi menghapus duplikat, mengisi nilai yang hilang, mengubah format, menstandarisasi kategori, dan mendeteksi anomali.
- Memberi label data: Proses menambahkan informasi deskriptif atau metadata ke data mentah untuk memudahkan identifikasi dan penggunaan. Data labeling sering digunakan pada data tak terstruktur seperti gambar, teks, atau suara, yang memerlukan anotasi manusia agar algoritma ML dapat memahami fitur dan pola dari data yang diberi label.
- Mengeksplorasi data: Tahap ini melibatkan analisis karakteristik, distribusi, dan hubungan antar data. Data exploration menggunakan teknik statistik deskriptif, visualisasi data, dan analisis eksploratif untuk menemukan wawasan, tren, dan anomali dalam data serta menentukan langkah selanjutnya dalam analisis.


Komentar
Posting Komentar