Update README.md
This commit is contained in:
parent
af84b18907
commit
ee46c84b6b
45
README.md
45
README.md
@ -58,7 +58,50 @@ Tujuan K-Means
|
|||||||
2. Memaksimalkan perbedaan antar cluster.
|
2. Memaksimalkan perbedaan antar cluster.
|
||||||
3. Menghasilkan pengelompokan wilayah yang mencerminkan kesamaan jumlah pendidik.
|
3. Menghasilkan pengelompokan wilayah yang mencerminkan kesamaan jumlah pendidik.
|
||||||
|
|
||||||
# Hasil Penelitian: k-Means Clustering
|
# Hasil dan Pembahasan
|
||||||
|
|
||||||
|
A. Eksplorasi Data Awal
|
||||||
|
|
||||||
|
Dataset yang digunakan terdiri dari 24 wilayah provinsi di Indonesia, dengan tiga variabel utama:
|
||||||
|
1. Jumlah Pendidik SMA/Sederajat
|
||||||
|
2. Jumlah Sekolah SMA/Sederajat
|
||||||
|
3. Rasio Guru per Sekolah
|
||||||
|
|
||||||
|
Berdasarkan eksplorasi awal:
|
||||||
|
1. Tidak terdapat data yang hilang (missing value).
|
||||||
|
2. Nilai rata-rata jumlah pendidik adalah 7.937, dengan standar deviasi 6.573, menunjukkan adanya variasi besar antar wilayah.
|
||||||
|
3. Rasio guru per sekolah memiliki nilai minimum 20 dan maksimum 33,3, dengan rata-rata sekitar 24,7.
|
||||||
|
Secara umum, terdapat perbedaan signifikan antara wilayah-wilayah yang memiliki jumlah pendidik dan sekolah besar (seperti Jawa Barat dan Jawa Timur) dengan wilayah yang memiliki kapasitas lebih kecil (seperti Papua Barat, Gorontalo, dan Maluku Utara).
|
||||||
|
|
||||||
|
B. Persiapan data
|
||||||
|
|
||||||
|
Clustering dilakukan menggunakan dua fitur utama:
|
||||||
|
1. Jumlah pendidik
|
||||||
|
2. Jumlah sekolah
|
||||||
|
Sebelum proses clustering, data dinormalisasi menggunakan StandardScaler, sehingga setiap fitur berada dalam skala yang sama. Hal ini penting agar variabel dengan nilai besar (jumlah pendidik) tidak mendominasi proses pengelompokan.
|
||||||
|
|
||||||
|
C. Penentuan Jumlah Cluster Optimal
|
||||||
|
|
||||||
|
Metode evaluasi yang digunakan:
|
||||||
|
1. Elbow Method (Inertia)
|
||||||
|
Nilai inertia terus menurun seiring bertambahnya jumlah cluster. Titik siku (elbow) terlihat pada K = 3, yang menunjukkan penurunan inertia tidak lagi signifikan setelah titik tersebut.
|
||||||
|
2. Silhouette Score
|
||||||
|
Silhouette Score tertinggi berada pada:
|
||||||
|
|
||||||
|
K = 2 : 0.731
|
||||||
|
K = 3 : 0.595
|
||||||
|
|
||||||
|
Meskipun K=2 memiliki nilai lebih tinggi, namun K=3 dipilih karena menghasilkan segmentasi yang lebih baik secara interpretasi kebijakan (rendah, sedang, tinggi) dan masih dalam kategori skor baik (>0.5). Sehingga jumlah cluster optimal ditetapkan sebagai K = 3.
|
||||||
|
|
||||||
|
D. Implementasi K-Means Clustering
|
||||||
|
|
||||||
|
Proses K-Means dilakukan dengan K = 3, menghasilkan:
|
||||||
|
1. Inertia : 3.68
|
||||||
|
2. Silhouette Score : 0.595 (kategori baik)
|
||||||
|
3. Davies-Bouldin Index : 0.464 (semakin kecil semakin baik)
|
||||||
|
Ini menunjukkan model clustering stabil dan cukup baik dalam memisahkan data.
|
||||||
|
|
||||||
|
# Penelitian: k-Means Clustering
|
||||||
File CSV tersebut adalah output akhir dari analisis K-Means Clustering yang berfungsi untuk:
|
File CSV tersebut adalah output akhir dari analisis K-Means Clustering yang berfungsi untuk:
|
||||||
|
|
||||||
1. Mengelompokkan provinsi berdasarkan jumlah pendidik
|
1. Mengelompokkan provinsi berdasarkan jumlah pendidik
|
||||||
|
|||||||
Loading…
x
Reference in New Issue
Block a user