Mencari dataset yang terdapat pada website https://www.kaggle.com/\
Tentukan algoritma (klasifikasi, regresi, atau klastering) yang paling cocok untuk data tersebut\
Lakukan evaluasi model pada data yang sudah ada\
Lakukan juga cross validation untuk memastikan bahwa hasil prediksi model tidak jauh berbeda dari pola asli dalam data\
Lakukan push atau penyimpanan laporan pada website https://git.lab.ubharajaya.ac.id/

Klasifikasi Tingkat Kemiskinan di Indonesia

Sumber dataset: https://www.kaggle.com/

Tingkat kemiskinan di Indonesia merupakan salah satu indikator penting

dalam menentukan keberhasilan pembangunan sosial dan ekonomi. Data kemiskinan memberikan gambaran mengenai kondisi kesejahteraan masyarakat di berbagai wilayah, termasuk faktor-faktor yang mempengaruhi meningkat atau menurunnya angka kemiskinan. Analisis berbasis data diperlukan untuk memahami pola kemiskinan, mengidentifikasi wilayah rentan, dan mendukung pemerintah dalam merumuskan kebijakan pengentasan kemiskinan yang lebih tepat sasaran. Dengan melakukan klasifikasi tingkat kemiskinan menggunakan metode machine learning, kita dapat memprediksi kategori kemiskinan suatu daerah berdasarkan variabel-variabel yang tersedia dalam dataset. Pendekatan ini dapat membantu dalam mengambil keputusan yang lebih berbasis data, serta mengidentifikasi faktor utama yang berpengaruh terhadap tingkat kemiskinan di Indonesia.

Analisis Dataset: Classification

Algoritma yang paling cocok untuk dataset ini adalah Klasifikasi, karena variabel target berupa kategori tingkat kemiskinan. Algoritma yang digunakan:

Logistic Regression\
Random Forest Classification

Logistic Regression digunakan sebagai model dasar untuk memahami hubungan linier antara variabel fitur dan kelas target. Model ini sederhana, mudah diinterpretasikan, dan menjadi baseline yang baik untuk membandingkan kinerja model lain.

Random Forest Classification digunakan untuk meningkatkan akurasi prediksi, terutama ketika data memiliki pola non-linear. Random Forest memanfaatkan banyak pohon keputusan (ensemble learning) sehingga lebih tahan terhadap noise dan overfitting. Model ini mampu menangkap interaksi kompleks antar variabel dan sering memberikan performa lebih stabil pada dataset kategori.

Dengan mengombinasikan kedua pendekatan tersebut, penelitian ini mampu melakukan analisis komprehensif untuk menentukan model mana yang paling representatif terhadap pola tingkat kemiskinan di Indonesia. Model klasifikasi ini juga dapat digunakan dalam perencanaan kebijakan sosial serta monitoring perkembangan kesejahteraan masyarakat.

Evaluasi Model

Evaluasi model dilakukan untuk memastikan bahwa algoritma mampu melakukan klasifikasi dengan akurat.
Metrik yang digunakan:

Accuracy\
Precision\
Recall\
F1-Score

Accuracy memberikan gambaran umum mengenai ketepatan model dalam mengklasifikasikan data dengan benar.
Precision dan recall memberikan informasi mengenai seberapa baik model mengidentifikasi kelas positif tanpa banyak salah klasifikasi.
F1-score merupakan metrik harmonisasi antara precision dan recall sehingga cocok digunakan pada dataset yang tidak seimbang.

Cross Validation

Cross validation, khususnya K-Fold Cross Validation, digunakan untuk menguji konsistensi model terhadap banyak skenario pembagian data.
Metode ini memberikan gambaran yang lebih stabil mengenai performa model daripada hanya sekali train-test split.

Keuntungan Menggunakan Cross Validation

Hasil evaluasi lebih stabil dan tidak tergantung pada satu kali pembagian data.\
Membantu mendeteksi overfitting.\
Memberikan gambaran performa model yang lebih dapat digeneralisasikan.

Kesimpulan

Secara keseluruhan, analisis ini menunjukkan bahwa metode klasifikasi, khususnya Random Forest Classification, mampu memberikan hasil yang lebih akurat dan stabil dalam mengklasifikasikan tingkat kemiskinan di Indonesia.
Model yang dihasilkan dapat menjadi tools pendukung kebijakan dalam mengidentifikasi wilayah prioritas, memonitor perkembangan sosial, dan merencanakan strategi penanggulangan kemiskinan yang lebih tepat sasaran.