diff --git a/README.md b/README.md index 6e6204a..1e9c0a0 100644 --- a/README.md +++ b/README.md @@ -33,6 +33,14 @@ Penelitian ini menggunakan pendekatan **klasifikasi**, yang bertujuan untuk mengelompokkan data pasien ke dalam dua kelas, yaitu pasien diabetes dan non-diabetes, berdasarkan pola yang dipelajari dari data latih. +# Algoritma Machine Learning +Algoritma yang digunakan dalam penelitian ini meliputi: +- **Naïve Bayes Classifier**, bekerja berdasarkan pendekatan probabilistik dengan asumsi independensi antar fitur. +- **K-Nearest Neighbor (KNN)**, mengklasifikasikan data berdasarkan kedekatan jarak terhadap data latih terdekat. +- **Decision Tree**, melakukan klasifikasi berdasarkan aturan keputusan dalam bentuk struktur pohon. + +Ketiga algoritma dipilih karena memiliki karakteristik dan pendekatan yang berbeda dalam proses klasifikasi, sehingga dapat dibandingkan performanya secara objektif. + # Tahapan Penelitian Tahapan penelitian dilakukan secara sistematis sebagai berikut: 1. Pengumpulan dataset dari sumber publik @@ -41,8 +49,23 @@ Tahapan penelitian dilakukan secara sistematis sebagai berikut: 4. Penerapan algoritma klasifikasi pada data latih 5. Evaluasi performa model +# Evaluasi Model +Evaluasi performa model dilakukan menggunakan **Confusion Matrix** untuk mengetahui tingkat kesesuaian antara hasil prediksi dan data aktual. +Berdasarkan confusion matrix, diperoleh beberapa metrik evaluasi, yaitu: +- **Accuracy**, untuk mengukur tingkat ketepatan prediksi secara keseluruhan +- **Precision**, untuk mengukur ketepatan prediksi kelas positif +- **Recall**, untuk mengukur kemampuan model dalam mengenali data positif +- **F1-Score**, untuk menilai keseimbangan antara precision dan recall + +Hasil evaluasi digunakan sebagai dasar dalam menentukan algoritma dengan performa terbaik pada dataset diabetes. + # Cross Validation Untuk meningkatkan keandalan dan konsistensi hasil penelitian, diterapkan teknik **cross validation** pada proses pelatihan model. Metode ini bertujuan untuk meminimalkan bias akibat pembagian data latih dan data uji, serta -memberikan gambaran performa model yang lebih stabil. \ No newline at end of file +memberikan gambaran performa model yang lebih stabil. + +# Hasil dan Pembahasan +Berdasarkan pengujian yang dilakukan, setiap algoritma klasifikasi menunjukkan kinerja yang berbeda dalam memprediksi penyakit diabetes. Evaluasi model dilakukan menggunakan confusion matrix serta metrik accuracy, precision, recall, dan F1-score. + +Hasil pengujian menunjukkan bahwa algoritma Naïve Bayes dan K-Nearest Neighbor (KNN) mampu melakukan klasifikasi dengan cukup baik, namun memiliki keterbatasan masing-masing, sedangkan algoritma Decision Tree dapat memberikan performa terbaik karena mampu membentuk aturan keputusan dari kombinasi atribut, sehingga menghasilkan klasifikasi yang lebih akurat dan stabil. Penerapan cross validation juga menunjukkan bahwa model memiliki performa yang konsisten, sehingga Decision Tree menjadi algoritma yang paling sesuai digunakan dalam penelitian ini. \ No newline at end of file