Add README.md
This commit is contained in:
parent
4739505573
commit
8229cb4b74
107
README.md/README.md
Normal file
107
README.md/README.md
Normal file
@ -0,0 +1,107 @@
|
||||
# Proyek Machine Learning
|
||||
|
||||
Anggota Kelompok: \
|
||||
1. Eva Yusfika Hidayah (20231075012)
|
||||
2. Rahmad Syarif (202310715168)
|
||||
3. Regiska Sari Putri Prasetyo (202310715132)
|
||||
|
||||
# Ketentuan Tugas
|
||||
|
||||
1. Mencari dataset yang terdapat pada website https://www.kaggle.com/\
|
||||
2. Tentukan algoritma (klasifikasi, regresi, atau klastering) yang
|
||||
paling cocok untuk data tersebut\
|
||||
3. Lakukan evaluasi model pada data yang sudah ada\
|
||||
4. Lakukan juga cross validation untuk memastikan bahwa hasil prediksi
|
||||
model tidak jauh berbeda dari pola asli dalam data\
|
||||
5. Lakukan push atau penyimpanan laporan pada website
|
||||
https://git.lab.ubharajaya.ac.id/
|
||||
|
||||
# Klasifikasi Tingkat Kemiskinan di Indonesia
|
||||
|
||||
Sumber dataset: https://www.kaggle.com/
|
||||
|
||||
Tingkat kemiskinan di Indonesia merupakan salah satu indikator penting
|
||||
dalam menentukan keberhasilan pembangunan sosial dan ekonomi. Data
|
||||
kemiskinan memberikan gambaran mengenai kondisi kesejahteraan masyarakat
|
||||
di berbagai wilayah, termasuk faktor-faktor yang mempengaruhi meningkat
|
||||
atau menurunnya angka kemiskinan. Analisis berbasis data diperlukan
|
||||
untuk memahami pola kemiskinan, mengidentifikasi wilayah rentan, dan
|
||||
mendukung pemerintah dalam merumuskan kebijakan pengentasan kemiskinan
|
||||
yang lebih tepat sasaran.
|
||||
Dengan melakukan klasifikasi tingkat kemiskinan menggunakan metode
|
||||
machine learning, kita dapat memprediksi kategori kemiskinan suatu
|
||||
daerah berdasarkan variabel-variabel yang tersedia dalam dataset.
|
||||
Pendekatan ini dapat membantu dalam mengambil keputusan yang lebih
|
||||
berbasis data, serta mengidentifikasi faktor utama yang berpengaruh
|
||||
terhadap tingkat kemiskinan di Indonesia.
|
||||
|
||||
# Analisis Dataset: Classification
|
||||
|
||||
Algoritma yang paling cocok untuk dataset ini adalah **Klasifikasi**,
|
||||
karena variabel target berupa kategori tingkat kemiskinan.
|
||||
Algoritma yang digunakan:
|
||||
1. Logistic Regression\
|
||||
2. Random Forest Classification
|
||||
|
||||
**Logistic Regression** digunakan sebagai model dasar untuk memahami
|
||||
hubungan linier antara variabel fitur dan kelas target. Model ini
|
||||
sederhana, mudah diinterpretasikan, dan menjadi baseline yang baik untuk
|
||||
membandingkan kinerja model lain.
|
||||
|
||||
**Random Forest Classification** digunakan untuk meningkatkan akurasi
|
||||
prediksi, terutama ketika data memiliki pola non-linear. Random Forest
|
||||
memanfaatkan banyak pohon keputusan (ensemble learning) sehingga lebih
|
||||
tahan terhadap noise dan overfitting. Model ini mampu menangkap
|
||||
interaksi kompleks antar variabel dan sering memberikan performa lebih
|
||||
stabil pada dataset kategori.
|
||||
|
||||
Dengan mengombinasikan kedua pendekatan tersebut, penelitian ini mampu
|
||||
melakukan analisis komprehensif untuk menentukan model mana yang paling
|
||||
representatif terhadap pola tingkat kemiskinan di Indonesia. Model
|
||||
klasifikasi ini juga dapat digunakan dalam perencanaan kebijakan sosial
|
||||
serta monitoring perkembangan kesejahteraan masyarakat.
|
||||
|
||||
# Evaluasi Model
|
||||
|
||||
Evaluasi model dilakukan untuk memastikan bahwa algoritma mampu
|
||||
melakukan klasifikasi dengan akurat.\
|
||||
Metrik yang digunakan:
|
||||
|
||||
1. Accuracy\
|
||||
2. Precision\
|
||||
3. Recall\
|
||||
4. F1-Score
|
||||
|
||||
Accuracy memberikan gambaran umum mengenai ketepatan model dalam
|
||||
mengklasifikasikan data dengan benar.\
|
||||
Precision dan recall memberikan informasi mengenai seberapa baik model
|
||||
mengidentifikasi kelas positif tanpa banyak salah klasifikasi.\
|
||||
F1-score merupakan metrik harmonisasi antara precision dan recall
|
||||
sehingga cocok digunakan pada dataset yang tidak seimbang.
|
||||
|
||||
# Cross Validation
|
||||
|
||||
Cross validation, khususnya **K-Fold Cross Validation**, digunakan untuk
|
||||
menguji konsistensi model terhadap banyak skenario pembagian data.\
|
||||
Metode ini memberikan gambaran yang lebih stabil mengenai performa model
|
||||
daripada hanya sekali train-test split.
|
||||
|
||||
# Keuntungan Menggunakan Cross Validation
|
||||
|
||||
1. Hasil evaluasi lebih stabil dan tidak tergantung pada satu kali
|
||||
pembagian data.\
|
||||
2. Membantu mendeteksi overfitting.\
|
||||
3. Memberikan gambaran performa model yang lebih dapat
|
||||
digeneralisasikan.
|
||||
|
||||
# Kesimpulan
|
||||
|
||||
Secara keseluruhan, analisis ini menunjukkan bahwa metode klasifikasi,
|
||||
khususnya Random Forest Classification, mampu memberikan hasil yang
|
||||
lebih akurat dan stabil dalam mengklasifikasikan tingkat kemiskinan di
|
||||
Indonesia.\
|
||||
Model yang dihasilkan dapat menjadi tools pendukung kebijakan dalam
|
||||
mengidentifikasi wilayah prioritas, memonitor perkembangan sosial, dan
|
||||
merencanakan strategi penanggulangan kemiskinan yang lebih tepat
|
||||
sasaran.
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user