diff --git a/README.md/README.md b/README.md/README.md deleted file mode 100644 index 8a4f29c..0000000 --- a/README.md/README.md +++ /dev/null @@ -1,103 +0,0 @@ -# Proyek Machine Learning - -Anggota Kelompok: \ -1. Eva Yusfika Hidayah (20231075012) -2. Rahmad Syarif (202310715168) -3. Regiska Sari Putri Prasetyo (202310715132) - -# Ketentuan Tugas - -1. Mencari dataset yang terdapat pada website https://www.kaggle.com/\ -2. Tentukan algoritma (klasifikasi, regresi, atau klastering) yang paling cocok untuk data tersebut\ -3. Lakukan evaluasi model pada data yang sudah ada\ -4. Lakukan juga cross validation untuk memastikan bahwa hasil prediksi model tidak jauh berbeda dari pola asli dalam data\ -5. Lakukan push atau penyimpanan laporan pada website https://git.lab.ubharajaya.ac.id/ - -# Klasifikasi Tingkat Kemiskinan di Indonesia - -Sumber dataset: https://www.kaggle.com/ - -Tingkat kemiskinan di Indonesia merupakan salah satu indikator penting -dalam menentukan keberhasilan pembangunan sosial dan ekonomi. Data -kemiskinan memberikan gambaran mengenai kondisi kesejahteraan masyarakat -di berbagai wilayah, termasuk faktor-faktor yang mempengaruhi meningkat -atau menurunnya angka kemiskinan. Analisis berbasis data diperlukan -untuk memahami pola kemiskinan, mengidentifikasi wilayah rentan, dan -mendukung pemerintah dalam merumuskan kebijakan pengentasan kemiskinan -yang lebih tepat sasaran. - -Dengan melakukan klasifikasi tingkat kemiskinan menggunakan metode -machine learning, kita dapat memprediksi kategori kemiskinan suatu -daerah berdasarkan variabel-variabel yang tersedia dalam dataset. -Pendekatan ini dapat membantu dalam mengambil keputusan yang lebih -berbasis data, serta mengidentifikasi faktor utama yang berpengaruh -terhadap tingkat kemiskinan di Indonesia. - -# Analisis Dataset: Classification - -Algoritma yang paling cocok untuk dataset ini adalah **Klasifikasi**, -karena variabel target berupa kategori tingkat kemiskinan. -Algoritma yang digunakan: -1. Logistic Regression\ -2. Random Forest Classification - -**Logistic Regression** digunakan sebagai model dasar untuk memahami -hubungan linier antara variabel fitur dan kelas target. Model ini -sederhana, mudah diinterpretasikan, dan menjadi baseline yang baik untuk -membandingkan kinerja model lain. - -**Random Forest Classification** digunakan untuk meningkatkan akurasi -prediksi, terutama ketika data memiliki pola non-linear. Random Forest -memanfaatkan banyak pohon keputusan (ensemble learning) sehingga lebih -tahan terhadap noise dan overfitting. Model ini mampu menangkap -interaksi kompleks antar variabel dan sering memberikan performa lebih -stabil pada dataset kategori. - -Dengan mengombinasikan kedua pendekatan tersebut, penelitian ini mampu -melakukan analisis komprehensif untuk menentukan model mana yang paling -representatif terhadap pola tingkat kemiskinan di Indonesia. Model -klasifikasi ini juga dapat digunakan dalam perencanaan kebijakan sosial -serta monitoring perkembangan kesejahteraan masyarakat. - -# Evaluasi Model - -Evaluasi model dilakukan untuk memastikan bahwa algoritma mampu -melakukan klasifikasi dengan akurat.\ -Metrik yang digunakan: - -1. Accuracy\ -2. Precision\ -3. Recall\ -4. F1-Score - -Accuracy memberikan gambaran umum mengenai ketepatan model dalam -mengklasifikasikan data dengan benar.\ -Precision dan recall memberikan informasi mengenai seberapa baik model -mengidentifikasi kelas positif tanpa banyak salah klasifikasi.\ -F1-score merupakan metrik harmonisasi antara precision dan recall -sehingga cocok digunakan pada dataset yang tidak seimbang. - -# Cross Validation - -Cross validation, khususnya **K-Fold Cross Validation**, digunakan untuk -menguji konsistensi model terhadap banyak skenario pembagian data.\ -Metode ini memberikan gambaran yang lebih stabil mengenai performa model -daripada hanya sekali train-test split. - -# Keuntungan Menggunakan Cross Validation - -1. Hasil evaluasi lebih stabil dan tidak tergantung pada satu kali pembagian data.\ -2. Membantu mendeteksi overfitting.\ -3. Memberikan gambaran performa model yang lebih dapat digeneralisasikan. - -# Kesimpulan - -Secara keseluruhan, analisis ini menunjukkan bahwa metode klasifikasi, -khususnya Random Forest Classification, mampu memberikan hasil yang -lebih akurat dan stabil dalam mengklasifikasikan tingkat kemiskinan di -Indonesia.\ -Model yang dihasilkan dapat menjadi tools pendukung kebijakan dalam -mengidentifikasi wilayah prioritas, memonitor perkembangan sosial, dan -merencanakan strategi penanggulangan kemiskinan yang lebih tepat -sasaran. -