Update README.md

This commit is contained in:
202310715065 ANANDA DWI PRASETYO 2025-11-21 18:42:42 +07:00
parent af84b18907
commit ee46c84b6b

View File

@ -58,7 +58,50 @@ Tujuan K-Means
2. Memaksimalkan perbedaan antar cluster. 2. Memaksimalkan perbedaan antar cluster.
3. Menghasilkan pengelompokan wilayah yang mencerminkan kesamaan jumlah pendidik. 3. Menghasilkan pengelompokan wilayah yang mencerminkan kesamaan jumlah pendidik.
# Hasil Penelitian: k-Means Clustering # Hasil dan Pembahasan
A. Eksplorasi Data Awal
Dataset yang digunakan terdiri dari 24 wilayah provinsi di Indonesia, dengan tiga variabel utama:
1. Jumlah Pendidik SMA/Sederajat
2. Jumlah Sekolah SMA/Sederajat
3. Rasio Guru per Sekolah
Berdasarkan eksplorasi awal:
1. Tidak terdapat data yang hilang (missing value).
2. Nilai rata-rata jumlah pendidik adalah 7.937, dengan standar deviasi 6.573, menunjukkan adanya variasi besar antar wilayah.
3. Rasio guru per sekolah memiliki nilai minimum 20 dan maksimum 33,3, dengan rata-rata sekitar 24,7.
Secara umum, terdapat perbedaan signifikan antara wilayah-wilayah yang memiliki jumlah pendidik dan sekolah besar (seperti Jawa Barat dan Jawa Timur) dengan wilayah yang memiliki kapasitas lebih kecil (seperti Papua Barat, Gorontalo, dan Maluku Utara).
B. Persiapan data
Clustering dilakukan menggunakan dua fitur utama:
1. Jumlah pendidik
2. Jumlah sekolah
Sebelum proses clustering, data dinormalisasi menggunakan StandardScaler, sehingga setiap fitur berada dalam skala yang sama. Hal ini penting agar variabel dengan nilai besar (jumlah pendidik) tidak mendominasi proses pengelompokan.
C. Penentuan Jumlah Cluster Optimal
Metode evaluasi yang digunakan:
1. Elbow Method (Inertia)
Nilai inertia terus menurun seiring bertambahnya jumlah cluster. Titik siku (elbow) terlihat pada K = 3, yang menunjukkan penurunan inertia tidak lagi signifikan setelah titik tersebut.
2. Silhouette Score
Silhouette Score tertinggi berada pada:
K = 2 : 0.731
K = 3 : 0.595
Meskipun K=2 memiliki nilai lebih tinggi, namun K=3 dipilih karena menghasilkan segmentasi yang lebih baik secara interpretasi kebijakan (rendah, sedang, tinggi) dan masih dalam kategori skor baik (>0.5). Sehingga jumlah cluster optimal ditetapkan sebagai K = 3.
D. Implementasi K-Means Clustering
Proses K-Means dilakukan dengan K = 3, menghasilkan:
1. Inertia : 3.68
2. Silhouette Score : 0.595 (kategori baik)
3. Davies-Bouldin Index : 0.464 (semakin kecil semakin baik)
Ini menunjukkan model clustering stabil dan cukup baik dalam memisahkan data.
# Penelitian: k-Means Clustering
File CSV tersebut adalah output akhir dari analisis K-Means Clustering yang berfungsi untuk: File CSV tersebut adalah output akhir dari analisis K-Means Clustering yang berfungsi untuk:
1. Mengelompokkan provinsi berdasarkan jumlah pendidik 1. Mengelompokkan provinsi berdasarkan jumlah pendidik