Project_Machine_Learning_Ke.../README.md

# Proyek Machine Learning

Anggota Kelompok:
1. Eva Yusfika Hidayah (20231075012)
2. Rahmad Syarif (202310715168)
3. Regiska Sari Putri Prasetyo (202310715132)

# Ketentuan Tugas

1. Mencari dataset yang terdapat pada website https://www.kaggle.com/
2. Tentukan algoritma (klasifikasi, regresi, atau klastering) yang paling cocok untuk data tersebut
3. Lakukan evaluasi model pada data yang sudah ada
4. Lakukan juga cross validation untuk memastikan bahwa hasil prediksi model tidak jauh berbeda dari pola asli dalam data
5. Lakukan push atau penyimpanan laporan pada website https://git.lab.ubharajaya.ac.id/

# Klasifikasi Tingkat Kemiskinan di Indonesia

Sumber dataset: https://www.kaggle.com/

Tingkat kemiskinan di Indonesia merupakan salah satu indikator penting
dalam menentukan keberhasilan pembangunan sosial dan ekonomi. Data
kemiskinan memberikan gambaran mengenai kondisi kesejahteraan masyarakat
di berbagai wilayah, termasuk faktor-faktor yang mempengaruhi meningkat
atau menurunnya angka kemiskinan. Analisis berbasis data diperlukan
untuk memahami pola kemiskinan, mengidentifikasi wilayah rentan, dan
mendukung pemerintah dalam merumuskan kebijakan pengentasan kemiskinan
yang lebih tepat sasaran.

Dengan melakukan klasifikasi tingkat kemiskinan menggunakan metode
machine learning, kita dapat memprediksi kategori kemiskinan suatu
daerah berdasarkan variabel-variabel yang tersedia dalam dataset.
Pendekatan ini dapat membantu dalam mengambil keputusan yang lebih
berbasis data, serta mengidentifikasi faktor utama yang berpengaruh
terhadap tingkat kemiskinan di Indonesia.

# Analisis Dataset: Classification

Algoritma yang paling cocok untuk dataset ini adalah **Klasifikasi**,
karena variabel target berupa kategori tingkat kemiskinan.
Algoritma yang digunakan:
1. Logistic Regression
2. Random Forest Classification
3. Decision Tree

**Logistic Regression** digunakan sebagai model dasar untuk memahami
hubungan linier antara variabel fitur dan kelas target. Model ini
sederhana, mudah diinterpretasikan, dan menjadi baseline yang baik untuk
membandingkan kinerja model lain.

**Random Forest Classification** digunakan untuk meningkatkan akurasi
prediksi, terutama ketika data memiliki pola non-linear. Random Forest
memanfaatkan banyak pohon keputusan (ensemble learning) sehingga lebih
tahan terhadap noise dan overfitting. Model ini mampu menangkap
interaksi kompleks antar variabel dan sering memberikan performa lebih
stabil pada dataset kategori.

**Decision Tree** digunakan untuk memodelkan proses pengambilan keputusan secara hierarkis berdasarkan aturan if-then yang mudah dipahami. algoritma ini bekerja dengan membagi data ke dalam beberapa cabang berdasarkan atribut yang paling berpengaruh terhadap variabel target, sehingga menghasilkan struktur pohon keputusan yang merepresentasikan pada pola klasifikasi tingkat.

Dengan mengombinasikan kedua pendekatan tersebut, penelitian ini mampu
melakukan analisis komprehensif untuk menentukan model mana yang paling
representatif terhadap pola tingkat kemiskinan di Indonesia. Model
klasifikasi ini juga dapat digunakan dalam perencanaan kebijakan sosial
serta monitoring perkembangan kesejahteraan masyarakat.

# Evaluasi Model

Evaluasi model dilakukan untuk memastikan bahwa algoritma mampu
melakukan klasifikasi dengan akurat.
Metrik yang digunakan:

1.  Accuracy
2.  Precision
3.  Recall
4.  F1-Score

Accuracy memberikan gambaran umum mengenai ketepatan model dalam
mengklasifikasikan data dengan benar.
Precision dan recall memberikan informasi mengenai seberapa baik model
mengidentifikasi kelas positif tanpa banyak salah klasifikasi.
F1-score merupakan metrik harmonisasi antara precision dan recall
sehingga cocok digunakan pada dataset yang tidak seimbang.

# Cross Validation

Cross validation, khususnya **K-Fold Cross Validation**, digunakan untuk
menguji konsistensi model terhadap banyak skenario pembagian data.
Metode ini memberikan gambaran yang lebih stabil mengenai performa model
daripada hanya sekali train-test split.

# Keuntungan Menggunakan Cross Validation

1. Hasil evaluasi lebih stabil dan tidak tergantung pada satu kali pembagian data.
2. Membantu mendeteksi overfitting.
3. Memberikan gambaran performa model yang lebih dapat digeneralisasikan.

# Kesimpulan

Secara keseluruhan, analisis ini menunjukkan bahwa metode klasifikasi,
**Logistic Regression cocok** digunakan untuk analisis awal dan interpretasi hubungan variabel, **Decision Tree** unggul dalam transparansi dan pemahaman aturan klasifikasi, sedangkan **Random Forest** memberikan performa prediksi terbaik dan lebih stabil pada dataset dengan pola non-linear dan kompleks.