# PERBANDINGAN ALGORITMA MACHINE LEARNING DALAM KLASIFIKASI PENYAKIT DIABETES

Repository ini berisi implementasi, dan dokumentasi penelitian
mengenai perbandingan beberapa algoritma machine learning dalam melakukan
klasifikasi penyakit diabetes. Penelitian ini disusun untuk memenuhi tugas
mata kuliah **Pembelajaran Mesin**.

# Anggota Kelompok:
1. Adhwa Ardista Khoirunisa (202310715146)
2. Putri Adelia Azizah (202310715084)
3. Sumih (202310715145)

# Deskripsi Dataset
Dataset yang digunakan dalam penelitian diperoleh dari platform Kaggle. Dataset terdiri dari 2.000 data dengan 9 atribut, yang mencakup 8 atribut input dan 1 atribut target (Outcome). Dataset ini dapat diakses melalui tautan berikut: https://www.kaggle.com/datasets/sitirahmahbasri/data-penyakit-diabetes

Atribut yang digunakan dalam dataset ini meliputi:
1. Pregnancies
2. Glucose
3. BloodPressure
4. SkinThickness
5. Insulin
6. BMI
7. DiabetesPedigreeFunction
8. Age
9. Outcome (label kelas)

Atribut input merepresentasikan kondisi kesehatan pasien, seperti jumlah kehamilan, kadar glukosa darah, tekanan darah, kadar insulin, indeks massa tubuh, serta faktor genetik. Sementara itu, atribut target (Outcome) menunjukkan kondisi pasien, yaitu terindikasi diabetes atau tidak.

Pada tahap awal penelitian, dilakukan penyesuaian dataset dengan menghapus atribut yang tidak relevan. Selanjutnya, dilakukan tahap preprocessing pada dataset untuk memastikan data yang digunakan memiliki kualitas dan konsistensi yang baik sebelum digunakan dalam proses pemodelan.

# Jenis Metode yang Digunakan
Penelitian ini menggunakan pendekatan **klasifikasi**, yang bertujuan untuk
mengelompokkan data pasien ke dalam dua kelas, yaitu pasien diabetes dan
non-diabetes, berdasarkan pola yang dipelajari dari data latih.

# Algoritma Machine Learning
Algoritma yang digunakan dalam penelitian ini meliputi:
- **Naïve Bayes Classifier**, bekerja berdasarkan pendekatan probabilistik dengan asumsi independensi antar fitur.
- **K-Nearest Neighbor (KNN)**, mengklasifikasikan data berdasarkan kedekatan jarak terhadap data latih terdekat.
- **Decision Tree**, melakukan klasifikasi berdasarkan aturan keputusan dalam bentuk struktur pohon.

Ketiga algoritma dipilih karena memiliki karakteristik dan pendekatan yang berbeda dalam proses klasifikasi, sehingga dapat dibandingkan performanya secara objektif.

# Tahapan Penelitian
Tahapan penelitian dilakukan secara sistematis sebagai berikut:
1. Pengumpulan dataset dari sumber publik
2. Preprocessing data, meliputi pembersihan data dan penyesuaian atribut
3. Pembagian dataset menjadi data latih dan data uji dengan rasio 80% : 20%
4. Penerapan algoritma klasifikasi pada data latih
5. Pengujian model menggunakan data uji
6. Evaluasi performa model
7. Perbandingan hasil klasifikasi antar algoritma

# Evaluasi Model
Evaluasi performa model dilakukan menggunakan **Confusion Matrix** untuk mengetahui tingkat kesesuaian antara hasil prediksi dan data aktual.
Berdasarkan confusion matrix, diperoleh beberapa metrik evaluasi, yaitu:
- **Accuracy**, untuk mengukur tingkat ketepatan prediksi secara keseluruhan
- **Precision**, untuk mengukur ketepatan prediksi kelas positif
- **Recall**, untuk mengukur kemampuan model dalam mengenali data positif
- **F1-Score**, untuk menilai keseimbangan antara precision dan recall

Hasil evaluasi digunakan sebagai dasar dalam menentukan algoritma dengan performa terbaik pada dataset diabetes.

# Cross Validation
Untuk meningkatkan keandalan dan konsistensi hasil penelitian, diterapkan
teknik **cross validation** pada proses pelatihan model. Metode ini bertujuan
untuk meminimalkan bias akibat pembagian data latih dan data uji, serta
memberikan gambaran performa model yang lebih stabil.

# Hasil dan Pembahasan
Berdasarkan pengujian yang dilakukan, setiap algoritma klasifikasi menunjukkan kinerja yang berbeda dalam memprediksi penyakit diabetes. Evaluasi model dilakukan menggunakan confusion matrix serta metrik accuracy, precision, recall, dan F1-score.

Hasil pengujian menunjukkan bahwa algoritma Naïve Bayes dan K-Nearest Neighbor (KNN) mampu melakukan klasifikasi dengan cukup baik, namun memiliki keterbatasan masing-masing, sedangkan algoritma Decision Tree dapat memberikan performa terbaik karena mampu membentuk aturan keputusan dari kombinasi atribut, sehingga menghasilkan klasifikasi yang lebih akurat dan stabil. Penerapan cross validation juga menunjukkan bahwa model memiliki performa yang konsisten, sehingga Decision Tree menjadi algoritma yang paling sesuai digunakan dalam penelitian ini.

# Informasi Laporan
Laporan penelitian beserta berkas pendukung lainnya diunggah dan disusun sesuai dengan ketentuan tugas yang diberikan oleh dosen pengampu mata kuliah Pembelajaran Mesin.