From 99f10e235a2b67bc214de18427095d6e68dd8400 Mon Sep 17 00:00:00 2001 From: 202310715132 REGISKA SARI PUTRI PRASETYO <202310715132@mhs.ubharajaya.ac.id> Date: Sun, 23 Nov 2025 22:24:46 +0700 Subject: [PATCH] add README.md --- README.md | 107 ++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 107 insertions(+) create mode 100644 README.md diff --git a/README.md b/README.md new file mode 100644 index 0000000..4f7c9ee --- /dev/null +++ b/README.md @@ -0,0 +1,107 @@ +# Proyek Machine Learning + +Anggota Kelompok: \ +1. Eva Yusfika Hidayah (20231075012) +2. Rahmad Syarif (202310715168) +3. Regiska Sari Putri Prasetyo (202310715132) + +# Ketentuan Tugas + +1. Mencari dataset yang terdapat pada website https://www.kaggle.com/\ +2. Tentukan algoritma (klasifikasi, regresi, atau klastering) yang + paling cocok untuk data tersebut\ +3. Lakukan evaluasi model pada data yang sudah ada\ +4. Lakukan juga cross validation untuk memastikan bahwa hasil prediksi + model tidak jauh berbeda dari pola asli dalam data\ +5. Lakukan push atau penyimpanan laporan pada website + https://git.lab.ubharajaya.ac.id/ + +# Klasifikasi Tingkat Kemiskinan di Indonesia + +Sumber dataset: https://www.kaggle.com/ + + Tingkat kemiskinan di Indonesia merupakan salah satu indikator penting +dalam menentukan keberhasilan pembangunan sosial dan ekonomi. Data +kemiskinan memberikan gambaran mengenai kondisi kesejahteraan masyarakat +di berbagai wilayah, termasuk faktor-faktor yang mempengaruhi meningkat +atau menurunnya angka kemiskinan. Analisis berbasis data diperlukan +untuk memahami pola kemiskinan, mengidentifikasi wilayah rentan, dan +mendukung pemerintah dalam merumuskan kebijakan pengentasan kemiskinan +yang lebih tepat sasaran. + Dengan melakukan klasifikasi tingkat kemiskinan menggunakan metode +machine learning, kita dapat memprediksi kategori kemiskinan suatu +daerah berdasarkan variabel-variabel yang tersedia dalam dataset. +Pendekatan ini dapat membantu dalam mengambil keputusan yang lebih +berbasis data, serta mengidentifikasi faktor utama yang berpengaruh +terhadap tingkat kemiskinan di Indonesia. + +# Analisis Dataset: Classification + +Algoritma yang paling cocok untuk dataset ini adalah **Klasifikasi**, +karena variabel target berupa kategori tingkat kemiskinan. +Algoritma yang digunakan: +1. Logistic Regression\ +2. Random Forest Classification + +**Logistic Regression** digunakan sebagai model dasar untuk memahami +hubungan linier antara variabel fitur dan kelas target. Model ini +sederhana, mudah diinterpretasikan, dan menjadi baseline yang baik untuk +membandingkan kinerja model lain. + +**Random Forest Classification** digunakan untuk meningkatkan akurasi +prediksi, terutama ketika data memiliki pola non-linear. Random Forest +memanfaatkan banyak pohon keputusan (ensemble learning) sehingga lebih +tahan terhadap noise dan overfitting. Model ini mampu menangkap +interaksi kompleks antar variabel dan sering memberikan performa lebih +stabil pada dataset kategori. + +Dengan mengombinasikan kedua pendekatan tersebut, penelitian ini mampu +melakukan analisis komprehensif untuk menentukan model mana yang paling +representatif terhadap pola tingkat kemiskinan di Indonesia. Model +klasifikasi ini juga dapat digunakan dalam perencanaan kebijakan sosial +serta monitoring perkembangan kesejahteraan masyarakat. + +# Evaluasi Model + +Evaluasi model dilakukan untuk memastikan bahwa algoritma mampu +melakukan klasifikasi dengan akurat.\ +Metrik yang digunakan: + +1. Accuracy\ +2. Precision\ +3. Recall\ +4. F1-Score + +Accuracy memberikan gambaran umum mengenai ketepatan model dalam +mengklasifikasikan data dengan benar.\ +Precision dan recall memberikan informasi mengenai seberapa baik model +mengidentifikasi kelas positif tanpa banyak salah klasifikasi.\ +F1-score merupakan metrik harmonisasi antara precision dan recall +sehingga cocok digunakan pada dataset yang tidak seimbang. + +# Cross Validation + +Cross validation, khususnya **K-Fold Cross Validation**, digunakan untuk +menguji konsistensi model terhadap banyak skenario pembagian data.\ +Metode ini memberikan gambaran yang lebih stabil mengenai performa model +daripada hanya sekali train-test split. + +# Keuntungan Menggunakan Cross Validation + +1. Hasil evaluasi lebih stabil dan tidak tergantung pada satu kali + pembagian data.\ +2. Membantu mendeteksi overfitting.\ +3. Memberikan gambaran performa model yang lebih dapat + digeneralisasikan. + +# Kesimpulan + +Secara keseluruhan, analisis ini menunjukkan bahwa metode klasifikasi, +khususnya Random Forest Classification, mampu memberikan hasil yang +lebih akurat dan stabil dalam mengklasifikasikan tingkat kemiskinan di +Indonesia.\ +Model yang dihasilkan dapat menjadi tools pendukung kebijakan dalam +mengidentifikasi wilayah prioritas, memonitor perkembangan sosial, dan +merencanakan strategi penanggulangan kemiskinan yang lebih tepat +sasaran. +