diff --git a/README.md b/README.md index a55fe13..eadce1c 100644 --- a/README.md +++ b/README.md @@ -58,7 +58,50 @@ Tujuan K-Means 2. Memaksimalkan perbedaan antar cluster. 3. Menghasilkan pengelompokan wilayah yang mencerminkan kesamaan jumlah pendidik. -# Hasil Penelitian: k-Means Clustering +# Hasil dan Pembahasan + +A. Eksplorasi Data Awal + +Dataset yang digunakan terdiri dari 24 wilayah provinsi di Indonesia, dengan tiga variabel utama: +1. Jumlah Pendidik SMA/Sederajat +2. Jumlah Sekolah SMA/Sederajat +3. Rasio Guru per Sekolah + +Berdasarkan eksplorasi awal: +1. Tidak terdapat data yang hilang (missing value). +2. Nilai rata-rata jumlah pendidik adalah 7.937, dengan standar deviasi 6.573, menunjukkan adanya variasi besar antar wilayah. +3. Rasio guru per sekolah memiliki nilai minimum 20 dan maksimum 33,3, dengan rata-rata sekitar 24,7. +Secara umum, terdapat perbedaan signifikan antara wilayah-wilayah yang memiliki jumlah pendidik dan sekolah besar (seperti Jawa Barat dan Jawa Timur) dengan wilayah yang memiliki kapasitas lebih kecil (seperti Papua Barat, Gorontalo, dan Maluku Utara). + +B. Persiapan data + +Clustering dilakukan menggunakan dua fitur utama: +1. Jumlah pendidik +2. Jumlah sekolah +Sebelum proses clustering, data dinormalisasi menggunakan StandardScaler, sehingga setiap fitur berada dalam skala yang sama. Hal ini penting agar variabel dengan nilai besar (jumlah pendidik) tidak mendominasi proses pengelompokan. + +C. Penentuan Jumlah Cluster Optimal + +Metode evaluasi yang digunakan: +1. Elbow Method (Inertia) +Nilai inertia terus menurun seiring bertambahnya jumlah cluster. Titik siku (elbow) terlihat pada K = 3, yang menunjukkan penurunan inertia tidak lagi signifikan setelah titik tersebut. +2. Silhouette Score +Silhouette Score tertinggi berada pada: + +K = 2 : 0.731 +K = 3 : 0.595 + +Meskipun K=2 memiliki nilai lebih tinggi, namun K=3 dipilih karena menghasilkan segmentasi yang lebih baik secara interpretasi kebijakan (rendah, sedang, tinggi) dan masih dalam kategori skor baik (>0.5). Sehingga jumlah cluster optimal ditetapkan sebagai K = 3. + +D. Implementasi K-Means Clustering + +Proses K-Means dilakukan dengan K = 3, menghasilkan: +1. Inertia : 3.68 +2. Silhouette Score : 0.595 (kategori baik) +3. Davies-Bouldin Index : 0.464 (semakin kecil semakin baik) +Ini menunjukkan model clustering stabil dan cukup baik dalam memisahkan data. + +# Penelitian: k-Means Clustering File CSV tersebut adalah output akhir dari analisis K-Means Clustering yang berfungsi untuk: 1. Mengelompokkan provinsi berdasarkan jumlah pendidik