Delete README.md/README.md
This commit is contained in:
parent
6848810b37
commit
419c3ac09c
@ -1,103 +0,0 @@
|
|||||||
# Proyek Machine Learning
|
|
||||||
|
|
||||||
Anggota Kelompok: \
|
|
||||||
1. Eva Yusfika Hidayah (20231075012)
|
|
||||||
2. Rahmad Syarif (202310715168)
|
|
||||||
3. Regiska Sari Putri Prasetyo (202310715132)
|
|
||||||
|
|
||||||
# Ketentuan Tugas
|
|
||||||
|
|
||||||
1. Mencari dataset yang terdapat pada website https://www.kaggle.com/\
|
|
||||||
2. Tentukan algoritma (klasifikasi, regresi, atau klastering) yang paling cocok untuk data tersebut\
|
|
||||||
3. Lakukan evaluasi model pada data yang sudah ada\
|
|
||||||
4. Lakukan juga cross validation untuk memastikan bahwa hasil prediksi model tidak jauh berbeda dari pola asli dalam data\
|
|
||||||
5. Lakukan push atau penyimpanan laporan pada website https://git.lab.ubharajaya.ac.id/
|
|
||||||
|
|
||||||
# Klasifikasi Tingkat Kemiskinan di Indonesia
|
|
||||||
|
|
||||||
Sumber dataset: https://www.kaggle.com/
|
|
||||||
|
|
||||||
Tingkat kemiskinan di Indonesia merupakan salah satu indikator penting
|
|
||||||
dalam menentukan keberhasilan pembangunan sosial dan ekonomi. Data
|
|
||||||
kemiskinan memberikan gambaran mengenai kondisi kesejahteraan masyarakat
|
|
||||||
di berbagai wilayah, termasuk faktor-faktor yang mempengaruhi meningkat
|
|
||||||
atau menurunnya angka kemiskinan. Analisis berbasis data diperlukan
|
|
||||||
untuk memahami pola kemiskinan, mengidentifikasi wilayah rentan, dan
|
|
||||||
mendukung pemerintah dalam merumuskan kebijakan pengentasan kemiskinan
|
|
||||||
yang lebih tepat sasaran.
|
|
||||||
|
|
||||||
Dengan melakukan klasifikasi tingkat kemiskinan menggunakan metode
|
|
||||||
machine learning, kita dapat memprediksi kategori kemiskinan suatu
|
|
||||||
daerah berdasarkan variabel-variabel yang tersedia dalam dataset.
|
|
||||||
Pendekatan ini dapat membantu dalam mengambil keputusan yang lebih
|
|
||||||
berbasis data, serta mengidentifikasi faktor utama yang berpengaruh
|
|
||||||
terhadap tingkat kemiskinan di Indonesia.
|
|
||||||
|
|
||||||
# Analisis Dataset: Classification
|
|
||||||
|
|
||||||
Algoritma yang paling cocok untuk dataset ini adalah **Klasifikasi**,
|
|
||||||
karena variabel target berupa kategori tingkat kemiskinan.
|
|
||||||
Algoritma yang digunakan:
|
|
||||||
1. Logistic Regression\
|
|
||||||
2. Random Forest Classification
|
|
||||||
|
|
||||||
**Logistic Regression** digunakan sebagai model dasar untuk memahami
|
|
||||||
hubungan linier antara variabel fitur dan kelas target. Model ini
|
|
||||||
sederhana, mudah diinterpretasikan, dan menjadi baseline yang baik untuk
|
|
||||||
membandingkan kinerja model lain.
|
|
||||||
|
|
||||||
**Random Forest Classification** digunakan untuk meningkatkan akurasi
|
|
||||||
prediksi, terutama ketika data memiliki pola non-linear. Random Forest
|
|
||||||
memanfaatkan banyak pohon keputusan (ensemble learning) sehingga lebih
|
|
||||||
tahan terhadap noise dan overfitting. Model ini mampu menangkap
|
|
||||||
interaksi kompleks antar variabel dan sering memberikan performa lebih
|
|
||||||
stabil pada dataset kategori.
|
|
||||||
|
|
||||||
Dengan mengombinasikan kedua pendekatan tersebut, penelitian ini mampu
|
|
||||||
melakukan analisis komprehensif untuk menentukan model mana yang paling
|
|
||||||
representatif terhadap pola tingkat kemiskinan di Indonesia. Model
|
|
||||||
klasifikasi ini juga dapat digunakan dalam perencanaan kebijakan sosial
|
|
||||||
serta monitoring perkembangan kesejahteraan masyarakat.
|
|
||||||
|
|
||||||
# Evaluasi Model
|
|
||||||
|
|
||||||
Evaluasi model dilakukan untuk memastikan bahwa algoritma mampu
|
|
||||||
melakukan klasifikasi dengan akurat.\
|
|
||||||
Metrik yang digunakan:
|
|
||||||
|
|
||||||
1. Accuracy\
|
|
||||||
2. Precision\
|
|
||||||
3. Recall\
|
|
||||||
4. F1-Score
|
|
||||||
|
|
||||||
Accuracy memberikan gambaran umum mengenai ketepatan model dalam
|
|
||||||
mengklasifikasikan data dengan benar.\
|
|
||||||
Precision dan recall memberikan informasi mengenai seberapa baik model
|
|
||||||
mengidentifikasi kelas positif tanpa banyak salah klasifikasi.\
|
|
||||||
F1-score merupakan metrik harmonisasi antara precision dan recall
|
|
||||||
sehingga cocok digunakan pada dataset yang tidak seimbang.
|
|
||||||
|
|
||||||
# Cross Validation
|
|
||||||
|
|
||||||
Cross validation, khususnya **K-Fold Cross Validation**, digunakan untuk
|
|
||||||
menguji konsistensi model terhadap banyak skenario pembagian data.\
|
|
||||||
Metode ini memberikan gambaran yang lebih stabil mengenai performa model
|
|
||||||
daripada hanya sekali train-test split.
|
|
||||||
|
|
||||||
# Keuntungan Menggunakan Cross Validation
|
|
||||||
|
|
||||||
1. Hasil evaluasi lebih stabil dan tidak tergantung pada satu kali pembagian data.\
|
|
||||||
2. Membantu mendeteksi overfitting.\
|
|
||||||
3. Memberikan gambaran performa model yang lebih dapat digeneralisasikan.
|
|
||||||
|
|
||||||
# Kesimpulan
|
|
||||||
|
|
||||||
Secara keseluruhan, analisis ini menunjukkan bahwa metode klasifikasi,
|
|
||||||
khususnya Random Forest Classification, mampu memberikan hasil yang
|
|
||||||
lebih akurat dan stabil dalam mengklasifikasikan tingkat kemiskinan di
|
|
||||||
Indonesia.\
|
|
||||||
Model yang dihasilkan dapat menjadi tools pendukung kebijakan dalam
|
|
||||||
mengidentifikasi wilayah prioritas, memonitor perkembangan sosial, dan
|
|
||||||
merencanakan strategi penanggulangan kemiskinan yang lebih tepat
|
|
||||||
sasaran.
|
|
||||||
|
|
||||||
Loading…
x
Reference in New Issue
Block a user