add README.md
This commit is contained in:
parent
da725598a9
commit
99f10e235a
107
README.md
Normal file
107
README.md
Normal file
@ -0,0 +1,107 @@
|
|||||||
|
# Proyek Machine Learning
|
||||||
|
|
||||||
|
Anggota Kelompok: \
|
||||||
|
1. Eva Yusfika Hidayah (20231075012)
|
||||||
|
2. Rahmad Syarif (202310715168)
|
||||||
|
3. Regiska Sari Putri Prasetyo (202310715132)
|
||||||
|
|
||||||
|
# Ketentuan Tugas
|
||||||
|
|
||||||
|
1. Mencari dataset yang terdapat pada website https://www.kaggle.com/\
|
||||||
|
2. Tentukan algoritma (klasifikasi, regresi, atau klastering) yang
|
||||||
|
paling cocok untuk data tersebut\
|
||||||
|
3. Lakukan evaluasi model pada data yang sudah ada\
|
||||||
|
4. Lakukan juga cross validation untuk memastikan bahwa hasil prediksi
|
||||||
|
model tidak jauh berbeda dari pola asli dalam data\
|
||||||
|
5. Lakukan push atau penyimpanan laporan pada website
|
||||||
|
https://git.lab.ubharajaya.ac.id/
|
||||||
|
|
||||||
|
# Klasifikasi Tingkat Kemiskinan di Indonesia
|
||||||
|
|
||||||
|
Sumber dataset: https://www.kaggle.com/
|
||||||
|
|
||||||
|
Tingkat kemiskinan di Indonesia merupakan salah satu indikator penting
|
||||||
|
dalam menentukan keberhasilan pembangunan sosial dan ekonomi. Data
|
||||||
|
kemiskinan memberikan gambaran mengenai kondisi kesejahteraan masyarakat
|
||||||
|
di berbagai wilayah, termasuk faktor-faktor yang mempengaruhi meningkat
|
||||||
|
atau menurunnya angka kemiskinan. Analisis berbasis data diperlukan
|
||||||
|
untuk memahami pola kemiskinan, mengidentifikasi wilayah rentan, dan
|
||||||
|
mendukung pemerintah dalam merumuskan kebijakan pengentasan kemiskinan
|
||||||
|
yang lebih tepat sasaran.
|
||||||
|
Dengan melakukan klasifikasi tingkat kemiskinan menggunakan metode
|
||||||
|
machine learning, kita dapat memprediksi kategori kemiskinan suatu
|
||||||
|
daerah berdasarkan variabel-variabel yang tersedia dalam dataset.
|
||||||
|
Pendekatan ini dapat membantu dalam mengambil keputusan yang lebih
|
||||||
|
berbasis data, serta mengidentifikasi faktor utama yang berpengaruh
|
||||||
|
terhadap tingkat kemiskinan di Indonesia.
|
||||||
|
|
||||||
|
# Analisis Dataset: Classification
|
||||||
|
|
||||||
|
Algoritma yang paling cocok untuk dataset ini adalah **Klasifikasi**,
|
||||||
|
karena variabel target berupa kategori tingkat kemiskinan.
|
||||||
|
Algoritma yang digunakan:
|
||||||
|
1. Logistic Regression\
|
||||||
|
2. Random Forest Classification
|
||||||
|
|
||||||
|
**Logistic Regression** digunakan sebagai model dasar untuk memahami
|
||||||
|
hubungan linier antara variabel fitur dan kelas target. Model ini
|
||||||
|
sederhana, mudah diinterpretasikan, dan menjadi baseline yang baik untuk
|
||||||
|
membandingkan kinerja model lain.
|
||||||
|
|
||||||
|
**Random Forest Classification** digunakan untuk meningkatkan akurasi
|
||||||
|
prediksi, terutama ketika data memiliki pola non-linear. Random Forest
|
||||||
|
memanfaatkan banyak pohon keputusan (ensemble learning) sehingga lebih
|
||||||
|
tahan terhadap noise dan overfitting. Model ini mampu menangkap
|
||||||
|
interaksi kompleks antar variabel dan sering memberikan performa lebih
|
||||||
|
stabil pada dataset kategori.
|
||||||
|
|
||||||
|
Dengan mengombinasikan kedua pendekatan tersebut, penelitian ini mampu
|
||||||
|
melakukan analisis komprehensif untuk menentukan model mana yang paling
|
||||||
|
representatif terhadap pola tingkat kemiskinan di Indonesia. Model
|
||||||
|
klasifikasi ini juga dapat digunakan dalam perencanaan kebijakan sosial
|
||||||
|
serta monitoring perkembangan kesejahteraan masyarakat.
|
||||||
|
|
||||||
|
# Evaluasi Model
|
||||||
|
|
||||||
|
Evaluasi model dilakukan untuk memastikan bahwa algoritma mampu
|
||||||
|
melakukan klasifikasi dengan akurat.\
|
||||||
|
Metrik yang digunakan:
|
||||||
|
|
||||||
|
1. Accuracy\
|
||||||
|
2. Precision\
|
||||||
|
3. Recall\
|
||||||
|
4. F1-Score
|
||||||
|
|
||||||
|
Accuracy memberikan gambaran umum mengenai ketepatan model dalam
|
||||||
|
mengklasifikasikan data dengan benar.\
|
||||||
|
Precision dan recall memberikan informasi mengenai seberapa baik model
|
||||||
|
mengidentifikasi kelas positif tanpa banyak salah klasifikasi.\
|
||||||
|
F1-score merupakan metrik harmonisasi antara precision dan recall
|
||||||
|
sehingga cocok digunakan pada dataset yang tidak seimbang.
|
||||||
|
|
||||||
|
# Cross Validation
|
||||||
|
|
||||||
|
Cross validation, khususnya **K-Fold Cross Validation**, digunakan untuk
|
||||||
|
menguji konsistensi model terhadap banyak skenario pembagian data.\
|
||||||
|
Metode ini memberikan gambaran yang lebih stabil mengenai performa model
|
||||||
|
daripada hanya sekali train-test split.
|
||||||
|
|
||||||
|
# Keuntungan Menggunakan Cross Validation
|
||||||
|
|
||||||
|
1. Hasil evaluasi lebih stabil dan tidak tergantung pada satu kali
|
||||||
|
pembagian data.\
|
||||||
|
2. Membantu mendeteksi overfitting.\
|
||||||
|
3. Memberikan gambaran performa model yang lebih dapat
|
||||||
|
digeneralisasikan.
|
||||||
|
|
||||||
|
# Kesimpulan
|
||||||
|
|
||||||
|
Secara keseluruhan, analisis ini menunjukkan bahwa metode klasifikasi,
|
||||||
|
khususnya Random Forest Classification, mampu memberikan hasil yang
|
||||||
|
lebih akurat dan stabil dalam mengklasifikasikan tingkat kemiskinan di
|
||||||
|
Indonesia.\
|
||||||
|
Model yang dihasilkan dapat menjadi tools pendukung kebijakan dalam
|
||||||
|
mengidentifikasi wilayah prioritas, memonitor perkembangan sosial, dan
|
||||||
|
merencanakan strategi penanggulangan kemiskinan yang lebih tepat
|
||||||
|
sasaran.
|
||||||
|
|
||||||
Loading…
x
Reference in New Issue
Block a user