diff --git a/README.md b/README.md new file mode 100644 index 0000000..80a6afb --- /dev/null +++ b/README.md @@ -0,0 +1,102 @@ +# Proyek Machine Learning + +Anggota Kelompok: +1. Eva Yusfika Hidayah (20231075012) +2. Rahmad Syarif (202310715168) +3. Regiska Sari Putri Prasetyo (202310715132) + +# Ketentuan Tugas + +1. Mencari dataset yang terdapat pada website https://www.kaggle.com/ +2. Tentukan algoritma (klasifikasi, regresi, atau klastering) yang paling cocok untuk data tersebut +3. Lakukan evaluasi model pada data yang sudah ada +4. Lakukan juga cross validation untuk memastikan bahwa hasil prediksi model tidak jauh berbeda dari pola asli dalam data +5. Lakukan push atau penyimpanan laporan pada website https://git.lab.ubharajaya.ac.id/ + +# Klasifikasi Tingkat Kemiskinan di Indonesia + +Sumber dataset: https://www.kaggle.com/ + + Tingkat kemiskinan di Indonesia merupakan salah satu indikator penting +dalam menentukan keberhasilan pembangunan sosial dan ekonomi. Data +kemiskinan memberikan gambaran mengenai kondisi kesejahteraan masyarakat +di berbagai wilayah, termasuk faktor-faktor yang mempengaruhi meningkat +atau menurunnya angka kemiskinan. Analisis berbasis data diperlukan +untuk memahami pola kemiskinan, mengidentifikasi wilayah rentan, dan +mendukung pemerintah dalam merumuskan kebijakan pengentasan kemiskinan +yang lebih tepat sasaran. + Dengan melakukan klasifikasi tingkat kemiskinan menggunakan metode +machine learning, kita dapat memprediksi kategori kemiskinan suatu +daerah berdasarkan variabel-variabel yang tersedia dalam dataset. +Pendekatan ini dapat membantu dalam mengambil keputusan yang lebih +berbasis data, serta mengidentifikasi faktor utama yang berpengaruh +terhadap tingkat kemiskinan di Indonesia. + +# Analisis Dataset: Classification + +Algoritma yang paling cocok untuk dataset ini adalah **Klasifikasi**, +karena variabel target berupa kategori tingkat kemiskinan. +Algoritma yang digunakan: +1. Logistic Regression +2. Random Forest Classification + +**Logistic Regression** digunakan sebagai model dasar untuk memahami +hubungan linier antara variabel fitur dan kelas target. Model ini +sederhana, mudah diinterpretasikan, dan menjadi baseline yang baik untuk +membandingkan kinerja model lain. + +**Random Forest Classification** digunakan untuk meningkatkan akurasi +prediksi, terutama ketika data memiliki pola non-linear. Random Forest +memanfaatkan banyak pohon keputusan (ensemble learning) sehingga lebih +tahan terhadap noise dan overfitting. Model ini mampu menangkap +interaksi kompleks antar variabel dan sering memberikan performa lebih +stabil pada dataset kategori. + +Dengan mengombinasikan kedua pendekatan tersebut, penelitian ini mampu +melakukan analisis komprehensif untuk menentukan model mana yang paling +representatif terhadap pola tingkat kemiskinan di Indonesia. Model +klasifikasi ini juga dapat digunakan dalam perencanaan kebijakan sosial +serta monitoring perkembangan kesejahteraan masyarakat. + +# Evaluasi Model + +Evaluasi model dilakukan untuk memastikan bahwa algoritma mampu +melakukan klasifikasi dengan akurat. +Metrik yang digunakan: + +1. Accuracy +2. Precision +3. Recall +4. F1-Score + +Accuracy memberikan gambaran umum mengenai ketepatan model dalam +mengklasifikasikan data dengan benar. +Precision dan recall memberikan informasi mengenai seberapa baik model +mengidentifikasi kelas positif tanpa banyak salah klasifikasi. +F1-score merupakan metrik harmonisasi antara precision dan recall +sehingga cocok digunakan pada dataset yang tidak seimbang. + +# Cross Validation + +Cross validation, khususnya **K-Fold Cross Validation**, digunakan untuk +menguji konsistensi model terhadap banyak skenario pembagian data. +Metode ini memberikan gambaran yang lebih stabil mengenai performa model +daripada hanya sekali train-test split. + +# Keuntungan Menggunakan Cross Validation + +1. Hasil evaluasi lebih stabil dan tidak tergantung pada satu kali pembagian data. +2. Membantu mendeteksi overfitting. +3. Memberikan gambaran performa model yang lebih dapat digeneralisasikan. + +# Kesimpulan + +Secara keseluruhan, analisis ini menunjukkan bahwa metode klasifikasi, +khususnya Random Forest Classification, mampu memberikan hasil yang +lebih akurat dan stabil dalam mengklasifikasikan tingkat kemiskinan di +Indonesia. +Model yang dihasilkan dapat menjadi tools pendukung kebijakan dalam +mengidentifikasi wilayah prioritas, memonitor perkembangan sosial, dan +merencanakan strategi penanggulangan kemiskinan yang lebih tepat +sasaran. +