Add README.md

2025-11-23 23:34:48 +07:00 · 2025-11-23 23:34:48 +07:00 · 8229cb4b74
commit 8229cb4b74
parent 4739505573
1 changed files with 107 additions and 0 deletions
--- a/README.md/README.md
+++ b/README.md/README.md
@ -0,0 +1,107 @@
+# Proyek Machine Learning
+
+Anggota Kelompok: \
+1. Eva Yusfika Hidayah (20231075012)
+2. Rahmad Syarif (202310715168) 
+3. Regiska Sari Putri Prasetyo (202310715132)
+
+# Ketentuan Tugas
+
+1.  Mencari dataset yang terdapat pada website https://www.kaggle.com/\
+2.  Tentukan algoritma (klasifikasi, regresi, atau klastering) yang
+    paling cocok untuk data tersebut\
+3.  Lakukan evaluasi model pada data yang sudah ada\
+4.  Lakukan juga cross validation untuk memastikan bahwa hasil prediksi
+    model tidak jauh berbeda dari pola asli dalam data\
+5.  Lakukan push atau penyimpanan laporan pada website
+    https://git.lab.ubharajaya.ac.id/
+
+# Klasifikasi Tingkat Kemiskinan di Indonesia
+
+Sumber dataset: https://www.kaggle.com/
+
+    Tingkat kemiskinan di Indonesia merupakan salah satu indikator penting
+dalam menentukan keberhasilan pembangunan sosial dan ekonomi. Data
+kemiskinan memberikan gambaran mengenai kondisi kesejahteraan masyarakat
+di berbagai wilayah, termasuk faktor-faktor yang mempengaruhi meningkat
+atau menurunnya angka kemiskinan. Analisis berbasis data diperlukan
+untuk memahami pola kemiskinan, mengidentifikasi wilayah rentan, dan
+mendukung pemerintah dalam merumuskan kebijakan pengentasan kemiskinan
+yang lebih tepat sasaran.
+    Dengan melakukan klasifikasi tingkat kemiskinan menggunakan metode
+machine learning, kita dapat memprediksi kategori kemiskinan suatu
+daerah berdasarkan variabel-variabel yang tersedia dalam dataset.
+Pendekatan ini dapat membantu dalam mengambil keputusan yang lebih
+berbasis data, serta mengidentifikasi faktor utama yang berpengaruh
+terhadap tingkat kemiskinan di Indonesia.
+
+# Analisis Dataset: Classification
+
+Algoritma yang paling cocok untuk dataset ini adalah **Klasifikasi**,
+karena variabel target berupa kategori tingkat kemiskinan.
+Algoritma yang digunakan: 
+1. Logistic Regression\
+2. Random Forest Classification
+
+**Logistic Regression** digunakan sebagai model dasar untuk memahami
+hubungan linier antara variabel fitur dan kelas target. Model ini
+sederhana, mudah diinterpretasikan, dan menjadi baseline yang baik untuk
+membandingkan kinerja model lain.
+
+**Random Forest Classification** digunakan untuk meningkatkan akurasi
+prediksi, terutama ketika data memiliki pola non-linear. Random Forest
+memanfaatkan banyak pohon keputusan (ensemble learning) sehingga lebih
+tahan terhadap noise dan overfitting. Model ini mampu menangkap
+interaksi kompleks antar variabel dan sering memberikan performa lebih
+stabil pada dataset kategori.
+
+Dengan mengombinasikan kedua pendekatan tersebut, penelitian ini mampu
+melakukan analisis komprehensif untuk menentukan model mana yang paling
+representatif terhadap pola tingkat kemiskinan di Indonesia. Model
+klasifikasi ini juga dapat digunakan dalam perencanaan kebijakan sosial
+serta monitoring perkembangan kesejahteraan masyarakat.
+
+# Evaluasi Model
+
+Evaluasi model dilakukan untuk memastikan bahwa algoritma mampu
+melakukan klasifikasi dengan akurat.\
+Metrik yang digunakan:
+
+1.  Accuracy\
+2.  Precision\
+3.  Recall\
+4.  F1-Score
+
+Accuracy memberikan gambaran umum mengenai ketepatan model dalam
+mengklasifikasikan data dengan benar.\
+Precision dan recall memberikan informasi mengenai seberapa baik model
+mengidentifikasi kelas positif tanpa banyak salah klasifikasi.\
+F1-score merupakan metrik harmonisasi antara precision dan recall
+sehingga cocok digunakan pada dataset yang tidak seimbang.
+
+# Cross Validation
+
+Cross validation, khususnya **K-Fold Cross Validation**, digunakan untuk
+menguji konsistensi model terhadap banyak skenario pembagian data.\
+Metode ini memberikan gambaran yang lebih stabil mengenai performa model
+daripada hanya sekali train-test split.
+
+# Keuntungan Menggunakan Cross Validation
+
+1.  Hasil evaluasi lebih stabil dan tidak tergantung pada satu kali
+    pembagian data.\
+2.  Membantu mendeteksi overfitting.\
+3.  Memberikan gambaran performa model yang lebih dapat
+    digeneralisasikan.
+
+# Kesimpulan
+
+Secara keseluruhan, analisis ini menunjukkan bahwa metode klasifikasi,
+khususnya Random Forest Classification, mampu memberikan hasil yang
+lebih akurat dan stabil dalam mengklasifikasikan tingkat kemiskinan di
+Indonesia.\
+Model yang dihasilkan dapat menjadi tools pendukung kebijakan dalam
+mengidentifikasi wilayah prioritas, memonitor perkembangan sosial, dan
+merencanakan strategi penanggulangan kemiskinan yang lebih tepat
+sasaran.
+