Proyek Machine Learning
Anggota Kelompok: \
- Eva Yusfika Hidayah (20231075012)
- Rahmad Syarif (202310715168)
- Regiska Sari Putri Prasetyo (202310715132)
Ketentuan Tugas
- Mencari dataset yang terdapat pada website https://www.kaggle.com/\
- Tentukan algoritma (klasifikasi, regresi, atau klastering) yang paling cocok untuk data tersebut\
- Lakukan evaluasi model pada data yang sudah ada\
- Lakukan juga cross validation untuk memastikan bahwa hasil prediksi model tidak jauh berbeda dari pola asli dalam data\
- Lakukan push atau penyimpanan laporan pada website https://git.lab.ubharajaya.ac.id/
Klasifikasi Tingkat Kemiskinan di Indonesia
Sumber dataset: https://www.kaggle.com/
Tingkat kemiskinan di Indonesia merupakan salah satu indikator penting
dalam menentukan keberhasilan pembangunan sosial dan ekonomi. Data kemiskinan memberikan gambaran mengenai kondisi kesejahteraan masyarakat di berbagai wilayah, termasuk faktor-faktor yang mempengaruhi meningkat atau menurunnya angka kemiskinan. Analisis berbasis data diperlukan untuk memahami pola kemiskinan, mengidentifikasi wilayah rentan, dan mendukung pemerintah dalam merumuskan kebijakan pengentasan kemiskinan yang lebih tepat sasaran. Dengan melakukan klasifikasi tingkat kemiskinan menggunakan metode machine learning, kita dapat memprediksi kategori kemiskinan suatu daerah berdasarkan variabel-variabel yang tersedia dalam dataset. Pendekatan ini dapat membantu dalam mengambil keputusan yang lebih berbasis data, serta mengidentifikasi faktor utama yang berpengaruh terhadap tingkat kemiskinan di Indonesia.
Analisis Dataset: Classification
Algoritma yang paling cocok untuk dataset ini adalah Klasifikasi, karena variabel target berupa kategori tingkat kemiskinan. Algoritma yang digunakan:
- Logistic Regression\
- Random Forest Classification
Logistic Regression digunakan sebagai model dasar untuk memahami hubungan linier antara variabel fitur dan kelas target. Model ini sederhana, mudah diinterpretasikan, dan menjadi baseline yang baik untuk membandingkan kinerja model lain.
Random Forest Classification digunakan untuk meningkatkan akurasi prediksi, terutama ketika data memiliki pola non-linear. Random Forest memanfaatkan banyak pohon keputusan (ensemble learning) sehingga lebih tahan terhadap noise dan overfitting. Model ini mampu menangkap interaksi kompleks antar variabel dan sering memberikan performa lebih stabil pada dataset kategori.
Dengan mengombinasikan kedua pendekatan tersebut, penelitian ini mampu melakukan analisis komprehensif untuk menentukan model mana yang paling representatif terhadap pola tingkat kemiskinan di Indonesia. Model klasifikasi ini juga dapat digunakan dalam perencanaan kebijakan sosial serta monitoring perkembangan kesejahteraan masyarakat.
Evaluasi Model
Evaluasi model dilakukan untuk memastikan bahwa algoritma mampu
melakukan klasifikasi dengan akurat.
Metrik yang digunakan:
- Accuracy\
- Precision\
- Recall\
- F1-Score
Accuracy memberikan gambaran umum mengenai ketepatan model dalam
mengklasifikasikan data dengan benar.
Precision dan recall memberikan informasi mengenai seberapa baik model
mengidentifikasi kelas positif tanpa banyak salah klasifikasi.
F1-score merupakan metrik harmonisasi antara precision dan recall
sehingga cocok digunakan pada dataset yang tidak seimbang.
Cross Validation
Cross validation, khususnya K-Fold Cross Validation, digunakan untuk
menguji konsistensi model terhadap banyak skenario pembagian data.
Metode ini memberikan gambaran yang lebih stabil mengenai performa model
daripada hanya sekali train-test split.
Keuntungan Menggunakan Cross Validation
- Hasil evaluasi lebih stabil dan tidak tergantung pada satu kali pembagian data.\
- Membantu mendeteksi overfitting.\
- Memberikan gambaran performa model yang lebih dapat digeneralisasikan.
Kesimpulan
Secara keseluruhan, analisis ini menunjukkan bahwa metode klasifikasi,
khususnya Random Forest Classification, mampu memberikan hasil yang
lebih akurat dan stabil dalam mengklasifikasikan tingkat kemiskinan di
Indonesia.
Model yang dihasilkan dapat menjadi tools pendukung kebijakan dalam
mengidentifikasi wilayah prioritas, memonitor perkembangan sosial, dan
merencanakan strategi penanggulangan kemiskinan yang lebih tepat
sasaran.