103 lines
4.6 KiB
Markdown
103 lines
4.6 KiB
Markdown
# Proyek Machine Learning
|
|
|
|
Anggota Kelompok:
|
|
1. Eva Yusfika Hidayah (20231075012)
|
|
2. Rahmad Syarif (202310715168)
|
|
3. Regiska Sari Putri Prasetyo (202310715132)
|
|
|
|
# Ketentuan Tugas
|
|
|
|
1. Mencari dataset yang terdapat pada website https://www.kaggle.com/
|
|
2. Tentukan algoritma (klasifikasi, regresi, atau klastering) yang paling cocok untuk data tersebut
|
|
3. Lakukan evaluasi model pada data yang sudah ada
|
|
4. Lakukan juga cross validation untuk memastikan bahwa hasil prediksi model tidak jauh berbeda dari pola asli dalam data
|
|
5. Lakukan push atau penyimpanan laporan pada website https://git.lab.ubharajaya.ac.id/
|
|
|
|
# Klasifikasi Tingkat Kemiskinan di Indonesia
|
|
|
|
Sumber dataset: https://www.kaggle.com/
|
|
|
|
Tingkat kemiskinan di Indonesia merupakan salah satu indikator penting
|
|
dalam menentukan keberhasilan pembangunan sosial dan ekonomi. Data
|
|
kemiskinan memberikan gambaran mengenai kondisi kesejahteraan masyarakat
|
|
di berbagai wilayah, termasuk faktor-faktor yang mempengaruhi meningkat
|
|
atau menurunnya angka kemiskinan. Analisis berbasis data diperlukan
|
|
untuk memahami pola kemiskinan, mengidentifikasi wilayah rentan, dan
|
|
mendukung pemerintah dalam merumuskan kebijakan pengentasan kemiskinan
|
|
yang lebih tepat sasaran.
|
|
|
|
Dengan melakukan klasifikasi tingkat kemiskinan menggunakan metode
|
|
machine learning, kita dapat memprediksi kategori kemiskinan suatu
|
|
daerah berdasarkan variabel-variabel yang tersedia dalam dataset.
|
|
Pendekatan ini dapat membantu dalam mengambil keputusan yang lebih
|
|
berbasis data, serta mengidentifikasi faktor utama yang berpengaruh
|
|
terhadap tingkat kemiskinan di Indonesia.
|
|
|
|
# Analisis Dataset: Classification
|
|
|
|
Algoritma yang paling cocok untuk dataset ini adalah **Klasifikasi**,
|
|
karena variabel target berupa kategori tingkat kemiskinan.
|
|
Algoritma yang digunakan:
|
|
1. Logistic Regression
|
|
2. Random Forest Classification
|
|
3. Decision Tree
|
|
|
|
**Logistic Regression** digunakan sebagai model dasar untuk memahami
|
|
hubungan linier antara variabel fitur dan kelas target. Model ini
|
|
sederhana, mudah diinterpretasikan, dan menjadi baseline yang baik untuk
|
|
membandingkan kinerja model lain.
|
|
|
|
**Random Forest Classification** digunakan untuk meningkatkan akurasi
|
|
prediksi, terutama ketika data memiliki pola non-linear. Random Forest
|
|
memanfaatkan banyak pohon keputusan (ensemble learning) sehingga lebih
|
|
tahan terhadap noise dan overfitting. Model ini mampu menangkap
|
|
interaksi kompleks antar variabel dan sering memberikan performa lebih
|
|
stabil pada dataset kategori.
|
|
|
|
**Decision Tree** digunakan untuk memodelkan proses pengambilan keputusan secara hierarkis berdasarkan aturan if-then yang mudah dipahami. algoritma ini bekerja dengan membagi data ke dalam beberapa cabang berdasarkan atribut yang paling berpengaruh terhadap variabel target, sehingga menghasilkan struktur pohon keputusan yang merepresentasikan pada pola klasifikasi tingkat.
|
|
|
|
Dengan mengombinasikan kedua pendekatan tersebut, penelitian ini mampu
|
|
melakukan analisis komprehensif untuk menentukan model mana yang paling
|
|
representatif terhadap pola tingkat kemiskinan di Indonesia. Model
|
|
klasifikasi ini juga dapat digunakan dalam perencanaan kebijakan sosial
|
|
serta monitoring perkembangan kesejahteraan masyarakat.
|
|
|
|
# Evaluasi Model
|
|
|
|
Evaluasi model dilakukan untuk memastikan bahwa algoritma mampu
|
|
melakukan klasifikasi dengan akurat.
|
|
Metrik yang digunakan:
|
|
|
|
1. Accuracy
|
|
2. Precision
|
|
3. Recall
|
|
4. F1-Score
|
|
|
|
Accuracy memberikan gambaran umum mengenai ketepatan model dalam
|
|
mengklasifikasikan data dengan benar.
|
|
Precision dan recall memberikan informasi mengenai seberapa baik model
|
|
mengidentifikasi kelas positif tanpa banyak salah klasifikasi.
|
|
F1-score merupakan metrik harmonisasi antara precision dan recall
|
|
sehingga cocok digunakan pada dataset yang tidak seimbang.
|
|
|
|
# Cross Validation
|
|
|
|
Cross validation, khususnya **K-Fold Cross Validation**, digunakan untuk
|
|
menguji konsistensi model terhadap banyak skenario pembagian data.
|
|
Metode ini memberikan gambaran yang lebih stabil mengenai performa model
|
|
daripada hanya sekali train-test split.
|
|
|
|
# Keuntungan Menggunakan Cross Validation
|
|
|
|
1. Hasil evaluasi lebih stabil dan tidak tergantung pada satu kali pembagian data.
|
|
2. Membantu mendeteksi overfitting.
|
|
3. Memberikan gambaran performa model yang lebih dapat digeneralisasikan.
|
|
|
|
# Kesimpulan
|
|
|
|
Secara keseluruhan, analisis ini menunjukkan bahwa metode klasifikasi,
|
|
**Logistic Regression cocok** digunakan untuk analisis awal dan interpretasi hubungan variabel, **Decision Tree** unggul dalam transparansi dan pemahaman aturan klasifikasi, sedangkan **Random Forest** memberikan performa prediksi terbaik dan lebih stabil pada dataset dengan pola non-linear dan kompleks.
|
|
|
|
|
|
|