2025-12-11 10:55:49 +07:00
2026-01-22 22:43:30 +07:00

PERBANDINGAN ALGORITMA MACHINE LEARNING DALAM KLASIFIKASI PENYAKIT DIABETES

Repository ini berisi implementasi, dan dokumentasi penelitian mengenai perbandingan beberapa algoritma machine learning dalam melakukan klasifikasi penyakit diabetes. Penelitian ini disusun untuk memenuhi tugas mata kuliah Pembelajaran Mesin.

Anggota Kelompok:

  1. Adhwa Ardista Khoirunisa (202310715146)
  2. Putri Adelia Azizah (202310715084)
  3. Sumih (202310715145)

Deskripsi Dataset

Dataset yang digunakan dalam penelitian diperoleh dari platform Kaggle. Dataset terdiri dari 2.000 data dengan 9 atribut, yang mencakup 8 atribut input dan 1 atribut target (Outcome). Dataset ini dapat diakses melalui tautan berikut: https://www.kaggle.com/datasets/sitirahmahbasri/data-penyakit-diabetes

Atribut yang digunakan dalam dataset ini meliputi:

  1. Pregnancies
  2. Glucose
  3. BloodPressure
  4. SkinThickness
  5. Insulin
  6. BMI
  7. DiabetesPedigreeFunction
  8. Age
  9. Outcome (label kelas)

Atribut input merepresentasikan kondisi kesehatan pasien, seperti jumlah kehamilan, kadar glukosa darah, tekanan darah, kadar insulin, indeks massa tubuh, serta faktor genetik. Sementara itu, atribut target (Outcome) menunjukkan kondisi pasien, yaitu terindikasi diabetes atau tidak.

Pada tahap awal penelitian, dilakukan penyesuaian dataset dengan menghapus atribut yang tidak relevan. Selanjutnya, dataset melalui tahap preprocessing untuk memastikan data yang digunakan memiliki kualitas dan konsistensi yang baik sebelum digunakan dalam proses pemodelan.

Jenis Metode yang Digunakan

Penelitian ini menggunakan pendekatan klasifikasi, yang bertujuan untuk mengelompokkan data pasien ke dalam dua kelas, yaitu pasien diabetes dan non-diabetes, berdasarkan pola yang dipelajari dari data latih.

Tahapan Penelitian

Tahapan penelitian dilakukan secara sistematis sebagai berikut:

  1. Pengumpulan dataset dari sumber publik
  2. Preprocessing data, meliputi pembersihan data dan penyesuaian atribut
  3. Pembagian dataset menjadi data latih dan data uji dengan rasio 80% : 20%
  4. Penerapan algoritma klasifikasi pada data latih
  5. Evaluasi performa model

Cross Validation

Untuk meningkatkan keandalan dan konsistensi hasil penelitian, diterapkan teknik cross validation pada proses pelatihan model. Metode ini bertujuan untuk meminimalkan bias akibat pembagian data latih dan data uji, serta memberikan gambaran performa model yang lebih stabil.

Description
No description provided
Readme MIT 530 KiB
Languages
Jupyter Notebook 100%