103 lines
4.2 KiB
Markdown
103 lines
4.2 KiB
Markdown
# Proyek Machine Learning
|
|
|
|
Anggota Kelompok:
|
|
1. Eva Yusfika Hidayah (20231075012)
|
|
2. Rahmad Syarif (202310715168)
|
|
3. Regiska Sari Putri Prasetyo (202310715132)
|
|
|
|
# Ketentuan Tugas
|
|
|
|
1. Mencari dataset yang terdapat pada website https://www.kaggle.com/
|
|
2. Tentukan algoritma (klasifikasi, regresi, atau klastering) yang paling cocok untuk data tersebut
|
|
3. Lakukan evaluasi model pada data yang sudah ada
|
|
4. Lakukan juga cross validation untuk memastikan bahwa hasil prediksi model tidak jauh berbeda dari pola asli dalam data
|
|
5. Lakukan push atau penyimpanan laporan pada website https://git.lab.ubharajaya.ac.id/
|
|
|
|
# Klasifikasi Tingkat Kemiskinan di Indonesia
|
|
|
|
Sumber dataset: https://www.kaggle.com/
|
|
|
|
Tingkat kemiskinan di Indonesia merupakan salah satu indikator penting
|
|
dalam menentukan keberhasilan pembangunan sosial dan ekonomi. Data
|
|
kemiskinan memberikan gambaran mengenai kondisi kesejahteraan masyarakat
|
|
di berbagai wilayah, termasuk faktor-faktor yang mempengaruhi meningkat
|
|
atau menurunnya angka kemiskinan. Analisis berbasis data diperlukan
|
|
untuk memahami pola kemiskinan, mengidentifikasi wilayah rentan, dan
|
|
mendukung pemerintah dalam merumuskan kebijakan pengentasan kemiskinan
|
|
yang lebih tepat sasaran.
|
|
Dengan melakukan klasifikasi tingkat kemiskinan menggunakan metode
|
|
machine learning, kita dapat memprediksi kategori kemiskinan suatu
|
|
daerah berdasarkan variabel-variabel yang tersedia dalam dataset.
|
|
Pendekatan ini dapat membantu dalam mengambil keputusan yang lebih
|
|
berbasis data, serta mengidentifikasi faktor utama yang berpengaruh
|
|
terhadap tingkat kemiskinan di Indonesia.
|
|
|
|
# Analisis Dataset: Classification
|
|
|
|
Algoritma yang paling cocok untuk dataset ini adalah **Klasifikasi**,
|
|
karena variabel target berupa kategori tingkat kemiskinan.
|
|
Algoritma yang digunakan:
|
|
1. Logistic Regression
|
|
2. Random Forest Classification
|
|
|
|
**Logistic Regression** digunakan sebagai model dasar untuk memahami
|
|
hubungan linier antara variabel fitur dan kelas target. Model ini
|
|
sederhana, mudah diinterpretasikan, dan menjadi baseline yang baik untuk
|
|
membandingkan kinerja model lain.
|
|
|
|
**Random Forest Classification** digunakan untuk meningkatkan akurasi
|
|
prediksi, terutama ketika data memiliki pola non-linear. Random Forest
|
|
memanfaatkan banyak pohon keputusan (ensemble learning) sehingga lebih
|
|
tahan terhadap noise dan overfitting. Model ini mampu menangkap
|
|
interaksi kompleks antar variabel dan sering memberikan performa lebih
|
|
stabil pada dataset kategori.
|
|
|
|
Dengan mengombinasikan kedua pendekatan tersebut, penelitian ini mampu
|
|
melakukan analisis komprehensif untuk menentukan model mana yang paling
|
|
representatif terhadap pola tingkat kemiskinan di Indonesia. Model
|
|
klasifikasi ini juga dapat digunakan dalam perencanaan kebijakan sosial
|
|
serta monitoring perkembangan kesejahteraan masyarakat.
|
|
|
|
# Evaluasi Model
|
|
|
|
Evaluasi model dilakukan untuk memastikan bahwa algoritma mampu
|
|
melakukan klasifikasi dengan akurat.
|
|
Metrik yang digunakan:
|
|
|
|
1. Accuracy
|
|
2. Precision
|
|
3. Recall
|
|
4. F1-Score
|
|
|
|
Accuracy memberikan gambaran umum mengenai ketepatan model dalam
|
|
mengklasifikasikan data dengan benar.
|
|
Precision dan recall memberikan informasi mengenai seberapa baik model
|
|
mengidentifikasi kelas positif tanpa banyak salah klasifikasi.
|
|
F1-score merupakan metrik harmonisasi antara precision dan recall
|
|
sehingga cocok digunakan pada dataset yang tidak seimbang.
|
|
|
|
# Cross Validation
|
|
|
|
Cross validation, khususnya **K-Fold Cross Validation**, digunakan untuk
|
|
menguji konsistensi model terhadap banyak skenario pembagian data.
|
|
Metode ini memberikan gambaran yang lebih stabil mengenai performa model
|
|
daripada hanya sekali train-test split.
|
|
|
|
# Keuntungan Menggunakan Cross Validation
|
|
|
|
1. Hasil evaluasi lebih stabil dan tidak tergantung pada satu kali pembagian data.
|
|
2. Membantu mendeteksi overfitting.
|
|
3. Memberikan gambaran performa model yang lebih dapat digeneralisasikan.
|
|
|
|
# Kesimpulan
|
|
|
|
Secara keseluruhan, analisis ini menunjukkan bahwa metode klasifikasi,
|
|
khususnya Random Forest Classification, mampu memberikan hasil yang
|
|
lebih akurat dan stabil dalam mengklasifikasikan tingkat kemiskinan di
|
|
Indonesia.
|
|
Model yang dihasilkan dapat menjadi tools pendukung kebijakan dalam
|
|
mengidentifikasi wilayah prioritas, memonitor perkembangan sosial, dan
|
|
merencanakan strategi penanggulangan kemiskinan yang lebih tepat
|
|
sasaran.
|
|
|