Update README.md
This commit is contained in:
parent
af84b18907
commit
ee46c84b6b
45
README.md
45
README.md
@ -58,7 +58,50 @@ Tujuan K-Means
|
||||
2. Memaksimalkan perbedaan antar cluster.
|
||||
3. Menghasilkan pengelompokan wilayah yang mencerminkan kesamaan jumlah pendidik.
|
||||
|
||||
# Hasil Penelitian: k-Means Clustering
|
||||
# Hasil dan Pembahasan
|
||||
|
||||
A. Eksplorasi Data Awal
|
||||
|
||||
Dataset yang digunakan terdiri dari 24 wilayah provinsi di Indonesia, dengan tiga variabel utama:
|
||||
1. Jumlah Pendidik SMA/Sederajat
|
||||
2. Jumlah Sekolah SMA/Sederajat
|
||||
3. Rasio Guru per Sekolah
|
||||
|
||||
Berdasarkan eksplorasi awal:
|
||||
1. Tidak terdapat data yang hilang (missing value).
|
||||
2. Nilai rata-rata jumlah pendidik adalah 7.937, dengan standar deviasi 6.573, menunjukkan adanya variasi besar antar wilayah.
|
||||
3. Rasio guru per sekolah memiliki nilai minimum 20 dan maksimum 33,3, dengan rata-rata sekitar 24,7.
|
||||
Secara umum, terdapat perbedaan signifikan antara wilayah-wilayah yang memiliki jumlah pendidik dan sekolah besar (seperti Jawa Barat dan Jawa Timur) dengan wilayah yang memiliki kapasitas lebih kecil (seperti Papua Barat, Gorontalo, dan Maluku Utara).
|
||||
|
||||
B. Persiapan data
|
||||
|
||||
Clustering dilakukan menggunakan dua fitur utama:
|
||||
1. Jumlah pendidik
|
||||
2. Jumlah sekolah
|
||||
Sebelum proses clustering, data dinormalisasi menggunakan StandardScaler, sehingga setiap fitur berada dalam skala yang sama. Hal ini penting agar variabel dengan nilai besar (jumlah pendidik) tidak mendominasi proses pengelompokan.
|
||||
|
||||
C. Penentuan Jumlah Cluster Optimal
|
||||
|
||||
Metode evaluasi yang digunakan:
|
||||
1. Elbow Method (Inertia)
|
||||
Nilai inertia terus menurun seiring bertambahnya jumlah cluster. Titik siku (elbow) terlihat pada K = 3, yang menunjukkan penurunan inertia tidak lagi signifikan setelah titik tersebut.
|
||||
2. Silhouette Score
|
||||
Silhouette Score tertinggi berada pada:
|
||||
|
||||
K = 2 : 0.731
|
||||
K = 3 : 0.595
|
||||
|
||||
Meskipun K=2 memiliki nilai lebih tinggi, namun K=3 dipilih karena menghasilkan segmentasi yang lebih baik secara interpretasi kebijakan (rendah, sedang, tinggi) dan masih dalam kategori skor baik (>0.5). Sehingga jumlah cluster optimal ditetapkan sebagai K = 3.
|
||||
|
||||
D. Implementasi K-Means Clustering
|
||||
|
||||
Proses K-Means dilakukan dengan K = 3, menghasilkan:
|
||||
1. Inertia : 3.68
|
||||
2. Silhouette Score : 0.595 (kategori baik)
|
||||
3. Davies-Bouldin Index : 0.464 (semakin kecil semakin baik)
|
||||
Ini menunjukkan model clustering stabil dan cukup baik dalam memisahkan data.
|
||||
|
||||
# Penelitian: k-Means Clustering
|
||||
File CSV tersebut adalah output akhir dari analisis K-Means Clustering yang berfungsi untuk:
|
||||
|
||||
1. Mengelompokkan provinsi berdasarkan jumlah pendidik
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user