Update README.md
This commit is contained in:
parent
66ae011aa2
commit
ca4c5cd641
90
README.md
90
README.md
@ -5,11 +5,11 @@ Anggota:
|
|||||||
3. Muhammad Shaddam Maghany Suryasaputra (202310715093)
|
3. Muhammad Shaddam Maghany Suryasaputra (202310715093)
|
||||||
|
|
||||||
<h1>Ketentuan Tugas</h1>
|
<h1>Ketentuan Tugas</h1>
|
||||||
1. Menentukan dataset nasional yang terdapat pada https://data.go.id/
|
1. Menentukan dataset nasional yang terdapat pada https://data.go.id/
|
||||||
2. Tentukan algoritma (klasifikasi, regresi atau klastering) yang paling cocok
|
2. Tentukan algoritma (klasifikasi, regresi atau klastering) yang paling cocok
|
||||||
3. Lakukan evaluasi model
|
3. Lakukan evaluasi model
|
||||||
4. Lakukan cross validation
|
4. Lakukan cross validation
|
||||||
5. Laporan diletakkan di gitlab
|
5. Laporan diletakkan di gitlab
|
||||||
|
|
||||||
<h1>Jumlah Pendidik SMA/MA/Sederajat tahun 2023</h1>
|
<h1>Jumlah Pendidik SMA/MA/Sederajat tahun 2023</h1>
|
||||||
<p>Sumber: https://data.go.id/dataset/dataset/jumlah-pendidik-sma-sma-ma-sederajat-2024</p>
|
<p>Sumber: https://data.go.id/dataset/dataset/jumlah-pendidik-sma-sma-ma-sederajat-2024</p>
|
||||||
@ -25,16 +25,16 @@ Anggota:
|
|||||||
|
|
||||||
<p>Algoritma yang paling cocok untuk mengolah dataset ini adalah Clustering Algoritma yang disarankan:</p>
|
<p>Algoritma yang paling cocok untuk mengolah dataset ini adalah Clustering Algoritma yang disarankan:</p>
|
||||||
|
|
||||||
1. K-Means Clustering
|
1. K-Means Clustering
|
||||||
2. Hierarchical Clustering
|
2. Hierarchical Clustering
|
||||||
3. DBSCAN
|
3. DBSCAN
|
||||||
|
|
||||||
<p>Alasan Dataset jumlah pendidik per wilayah sangat cocok untuk clustering karena:</p>
|
<p>Alasan Dataset jumlah pendidik per wilayah sangat cocok untuk clustering karena:</p>
|
||||||
|
|
||||||
1. Mengelompokkan wilayah berdasarkan kesamaan jumlah pendidik
|
1. Mengelompokkan wilayah berdasarkan kesamaan jumlah pendidik
|
||||||
2. Mengidentifikasi pola distribusi pendidik (wilayah surplus vs kekurangan)
|
2. Mengidentifikasi pola distribusi pendidik (wilayah surplus vs kekurangan)
|
||||||
3. Menemukan cluster wilayah dengan karakteristik serupa
|
3. Menemukan cluster wilayah dengan karakteristik serupa
|
||||||
4. Membantu pemerintah dalam perencanaan distribusi guru
|
4. Membantu pemerintah dalam perencanaan distribusi guru
|
||||||
|
|
||||||
<h1>Metode Penelitian: K-Means Clustering</h1>
|
<h1>Metode Penelitian: K-Means Clustering</h1>
|
||||||
<p>Pada penelitian ini data dianalisis dengan metode analisis clusterya itu K-Means Clustering yang mana termasuk dalam metode non hirarki. K-Means menggunakan pendekatan yang berbeda dengan metode lain seperti Fuzzy C-Means, Agglomerative Hierarchical Clustering, dan K-Medoids. K-Means hanya memungkinkan suatu data menjadi bagian dari satu cluster, sedangkan metode lain seperti Fuzzy C-Means memungkinkan suatu data tidak hanya menjadi bagian dari satu cluster saja.</p>
|
<p>Pada penelitian ini data dianalisis dengan metode analisis clusterya itu K-Means Clustering yang mana termasuk dalam metode non hirarki. K-Means menggunakan pendekatan yang berbeda dengan metode lain seperti Fuzzy C-Means, Agglomerative Hierarchical Clustering, dan K-Medoids. K-Means hanya memungkinkan suatu data menjadi bagian dari satu cluster, sedangkan metode lain seperti Fuzzy C-Means memungkinkan suatu data tidak hanya menjadi bagian dari satu cluster saja.</p>
|
||||||
@ -43,18 +43,18 @@ Anggota:
|
|||||||
|
|
||||||
<p>Cara Kerja K-Means:</p>
|
<p>Cara Kerja K-Means:</p>
|
||||||
|
|
||||||
1. Menentukan jumlah cluster (k).
|
1. Menentukan jumlah cluster (k).
|
||||||
2. Inisialisasi centroid secara acak.
|
2. Inisialisasi centroid secara acak.
|
||||||
3. Menghitung jarak setiap data terhadap centroid.
|
3. Menghitung jarak setiap data terhadap centroid.
|
||||||
4. Menempatkan data ke cluster terdekat.
|
4. Menempatkan data ke cluster terdekat.
|
||||||
5. Memperbarui posisi centroid berdasarkan rata-rata data pada cluster.
|
5. Memperbarui posisi centroid berdasarkan rata-rata data pada cluster.
|
||||||
6. Mengulangi proses hingga centroid stabil (konvergen).
|
6. Mengulangi proses hingga centroid stabil (konvergen).
|
||||||
|
|
||||||
<p>Tujuan K-Means<p>
|
<p>Tujuan K-Means<p>
|
||||||
|
|
||||||
1. Meminimalkan jarak antar data dalam satu cluster.
|
1. Meminimalkan jarak antar data dalam satu cluster.
|
||||||
2. Memaksimalkan perbedaan antar cluster.
|
2. Memaksimalkan perbedaan antar cluster.
|
||||||
3. Menghasilkan pengelompokan wilayah yang mencerminkan kesamaan jumlah pendidik.
|
3. Menghasilkan pengelompokan wilayah yang mencerminkan kesamaan jumlah pendidik.
|
||||||
|
|
||||||
<h1>Hasil dan Pembahasan</h1>
|
<h1>Hasil dan Pembahasan</h1>
|
||||||
|
|
||||||
@ -62,67 +62,67 @@ Anggota:
|
|||||||
|
|
||||||
<p>Dataset yang digunakan terdiri dari 24 wilayah provinsi di Indonesia, dengan tiga variabel utama:</p>
|
<p>Dataset yang digunakan terdiri dari 24 wilayah provinsi di Indonesia, dengan tiga variabel utama:</p>
|
||||||
|
|
||||||
1. Jumlah Pendidik SMA/Sederajat
|
1. Jumlah Pendidik SMA/Sederajat
|
||||||
2. Jumlah Sekolah SMA/Sederajat
|
2. Jumlah Sekolah SMA/Sederajat
|
||||||
3. Rasio Guru per Sekolah
|
3. Rasio Guru per Sekolah
|
||||||
|
|
||||||
Berdasarkan eksplorasi awal:
|
Berdasarkan eksplorasi awal:
|
||||||
|
|
||||||
1. Tidak terdapat data yang hilang (missing value).
|
1. Tidak terdapat data yang hilang (missing value).
|
||||||
2. Nilai rata-rata jumlah pendidik adalah 7.937, dengan standar deviasi 6.573, menunjukkan adanya variasi besar antar wilayah.
|
2. Nilai rata-rata jumlah pendidik adalah 7.937, dengan standar deviasi 6.573, menunjukkan adanya variasi besar antar wilayah.
|
||||||
3. Rasio guru per sekolah memiliki nilai minimum 20 dan maksimum 33,3, dengan rata-rata sekitar 24,7. Secara umum, terdapat perbedaan signifikan antara wilayah-wilayah yang memiliki jumlah pendidik dan sekolah besar (seperti Jawa Barat dan Jawa Timur) dengan wilayah yang memiliki kapasitas lebih kecil (seperti Papua Barat, Gorontalo, dan Maluku Utara).
|
3. Rasio guru per sekolah memiliki nilai minimum 20 dan maksimum 33,3, dengan rata-rata sekitar 24,7. Secara umum, terdapat perbedaan signifikan antara wilayah-wilayah yang memiliki jumlah pendidik dan sekolah besar (seperti Jawa Barat dan Jawa Timur) dengan wilayah yang memiliki kapasitas lebih kecil (seperti Papua Barat, Gorontalo, dan Maluku Utara).
|
||||||
|
|
||||||
<p>B. PERSIAPAN DATA</p>
|
<p>B. PERSIAPAN DATA</p>
|
||||||
|
|
||||||
Clustering dilakukan menggunakan dua fitur utama:
|
Clustering dilakukan menggunakan dua fitur utama:
|
||||||
|
|
||||||
1. Jumlah pendidik
|
1. Jumlah pendidik
|
||||||
2. Jumlah sekolah Sebelum proses clustering, data dinormalisasi menggunakan StandardScaler, sehingga setiap fitur berada dalam skala yang sama. Hal ini penting agar variabel dengan nilai besar (jumlah pendidik) tidak mendominasi proses pengelompokan.
|
2. Jumlah sekolah Sebelum proses clustering, data dinormalisasi menggunakan StandardScaler, sehingga setiap fitur berada dalam skala yang sama. Hal ini penting agar variabel dengan nilai besar (jumlah pendidik) tidak mendominasi proses pengelompokan.
|
||||||
|
|
||||||
C. PENENTUAN JUMLAH CLUSTER OPTIMAL
|
C. PENENTUAN JUMLAH CLUSTER OPTIMAL
|
||||||
|
|
||||||
Metode evaluasi yang digunakan:
|
Metode evaluasi yang digunakan:
|
||||||
|
|
||||||
1. Elbow Method (Inertia) Nilai inertia terus menurun seiring bertambahnya jumlah cluster. Titik siku (elbow) terlihat pada K = 3, yang menunjukkan penurunan inertia tidak lagi signifikan setelah titik tersebut.
|
1. Elbow Method (Inertia) Nilai inertia terus menurun seiring bertambahnya jumlah cluster. Titik siku (elbow) terlihat pada K = 3, yang menunjukkan penurunan inertia tidak lagi signifikan setelah titik tersebut.
|
||||||
2. ilhouette Score Silhouette Score tertinggi berada pada: a. K = 2 : 0.731 b. K = 3 : 0.595 Meskipun K=2 memiliki nilai lebih tinggi, namun K=3 dipilih karena menghasilkan segmentasi yang lebih baik secara interpretasi kebijakan (rendah, sedang, tinggi) dan masih dalam kategori skor baik (>0.5). Sehingga jumlah cluster optimal ditetapkan sebagai K = 3.
|
2. ilhouette Score Silhouette Score tertinggi berada pada: a. K = 2 : 0.731 b. K = 3 : 0.595 Meskipun K=2 memiliki nilai lebih tinggi, namun K=3 dipilih karena menghasilkan segmentasi yang lebih baik secara interpretasi kebijakan (rendah, sedang, tinggi) dan masih dalam kategori skor baik (>0.5). Sehingga jumlah cluster optimal ditetapkan sebagai K = 3.
|
||||||
|
|
||||||
D. IMPLEMENTASI K-MEANS CLUSTERING
|
D. IMPLEMENTASI K-MEANS CLUSTERING
|
||||||
|
|
||||||
Proses K-Means dilakukan dengan K = 3, menghasilkan:
|
Proses K-Means dilakukan dengan K = 3, menghasilkan:
|
||||||
|
|
||||||
1. Inertia : 3.68</p>
|
1. Inertia : 3.68</p>
|
||||||
2. Silhouette Score : 0.595 (kategori baik)
|
2. Silhouette Score : 0.595 (kategori baik)
|
||||||
3. Davies-Bouldin Index : 0.464 (semakin kecil semakin baik), Ini menunjukkan model clustering stabil dan cukup baik dalam memisahkan data.
|
3. Davies-Bouldin Index : 0.464 (semakin kecil semakin baik), Ini menunjukkan model clustering stabil dan cukup baik dalam memisahkan data.
|
||||||
|
|
||||||
E. HASIL PENGELOMPOKKAN
|
E. HASIL PENGELOMPOKKAN
|
||||||
|
|
||||||
Berdasarkan perhitungan rata-rata jumlah pendidik per cluster, tiga kategori ditetapkan:
|
Berdasarkan perhitungan rata-rata jumlah pendidik per cluster, tiga kategori ditetapkan:
|
||||||
|
|
||||||
1. Cluster 0: Kepadatan Rendah
|
1. Cluster 0: Kepadatan Rendah
|
||||||
2. Cluster 1: Kepadatan Tinggi
|
2. Cluster 1: Kepadatan Tinggi
|
||||||
3. Cluster 2: Kepadatan Sedang
|
3. Cluster 2: Kepadatan Sedang
|
||||||
|
|
||||||
F. INTERPRETASI PER CLUSTER
|
F. INTERPRETASI PER CLUSTER
|
||||||
|
|
||||||
1. Cluster Kepadatan Rendah Berisi 14 wilayah, seperti: Papua, Kalimantan Timur, Maluku, NTB, Gorontalo, dll. Memiliki nilai pendidik dan sekolah paling rendah. Rasio guru per sekolah: 22,31, di bawah standar ideal (25–30). ➡ Rekomendasi: Perlu penambahan guru dan pemerataan distribusi pendidik.
|
1. Cluster Kepadatan Rendah Berisi 14 wilayah, seperti: Papua, Kalimantan Timur, Maluku, NTB, Gorontalo, dll. Memiliki nilai pendidik dan sekolah paling rendah. Rasio guru per sekolah: 22,31, di bawah standar ideal (25–30). ➡ Rekomendasi: Perlu penambahan guru dan pemerataan distribusi pendidik.
|
||||||
|
|
||||||
2. Cluster Kepadatan Sedang Terdiri dari 7 wilayah: DKI Jakarta, Sumatera Utara, Banten, Lampung, Aceh, dan lainnya. Memiliki karakteristik jumlah pendidik dan sekolah menengah. Rasio guru per sekolah: 27,88, dalam kategori ideal. ➡ Rekomendasi: Tidak memerlukan intervensi besar; cukup menjaga stabilitas distribusi guru.
|
2. Cluster Kepadatan Sedang Terdiri dari 7 wilayah: DKI Jakarta, Sumatera Utara, Banten, Lampung, Aceh, dan lainnya. Memiliki karakteristik jumlah pendidik dan sekolah menengah. Rasio guru per sekolah: 27,88, dalam kategori ideal. ➡ Rekomendasi: Tidak memerlukan intervensi besar; cukup menjaga stabilitas distribusi guru.
|
||||||
|
|
||||||
3. Cluster Kepadatan Tinggi Berisi 3 wilayah utama: Jawa Barat, Jawa Tengah, Jawa Timur. Memiliki jumlah pendidik dan sekolah tertinggi di Indonesia. Rasio guru per sekolah: 28,28, masih dalam batas ideal. ➡ Rekomendasi: Tidak membutuhkan penambahan guru; fokus pada efisiensi dan pemerataan internal.
|
3. Cluster Kepadatan Tinggi Berisi 3 wilayah utama: Jawa Barat, Jawa Tengah, Jawa Timur. Memiliki jumlah pendidik dan sekolah tertinggi di Indonesia. Rasio guru per sekolah: 28,28, masih dalam batas ideal. ➡ Rekomendasi: Tidak membutuhkan penambahan guru; fokus pada efisiensi dan pemerataan internal.
|
||||||
|
|
||||||
<h1>Penelitian: k-Means Clustering</h1>
|
<h1>Penelitian: k-Means Clustering</h1>
|
||||||
File CSV tersebut adalah output akhir dari analisis K-Means Clustering yang berfungsi untuk:
|
File CSV tersebut adalah output akhir dari analisis K-Means Clustering yang berfungsi untuk:
|
||||||
|
|
||||||
1. Mengelompokkan provinsi berdasarkan jumlah pendidik
|
1. Mengelompokkan provinsi berdasarkan jumlah pendidik
|
||||||
2. Menentukan kategori kepadatan pendidik (rendah/sedang/tinggi)
|
2. Menentukan kategori kepadatan pendidik (rendah/sedang/tinggi)
|
||||||
|
|
||||||
<h1>Kesimpulan</h1>
|
<h1>Kesimpulan</h1>
|
||||||
<p>Berdasarkan analisis clustering menggunakan algoritma K-Means terhadap data jumlah pendidik dan jumlah sekolah SMA/Sederajat di Indonesia tahun 2023, diperoleh beberapa kesimpulan utama sebagai berikut: Data berhasil dikelompokkan menjadi tiga cluster utama, yaitu: a. Cluster Kepadatan Rendah b. Cluster Kepadatan Sedang c. Cluster Kepadatan Tinggi</p>
|
<p>Berdasarkan analisis clustering menggunakan algoritma K-Means terhadap data jumlah pendidik dan jumlah sekolah SMA/Sederajat di Indonesia tahun 2023, diperoleh beberapa kesimpulan utama sebagai berikut: Data berhasil dikelompokkan menjadi tiga cluster utama, yaitu: a. Cluster Kepadatan Rendah b. Cluster Kepadatan Sedang c. Cluster Kepadatan Tinggi</p>
|
||||||
|
|
||||||
1. Cluster Kepadatan Rendah berisi sebagian besar wilayah (14 provinsi) dengan jumlah pendidik dan sekolah yang relatif kecil. Cluster ini memiliki rasio guru per sekolah terendah, sehingga wilayah dalam cluster ini berpotensi mengalami kekurangan pendidik dan memerlukan prioritas intervensi.
|
1. Cluster Kepadatan Rendah berisi sebagian besar wilayah (14 provinsi) dengan jumlah pendidik dan sekolah yang relatif kecil. Cluster ini memiliki rasio guru per sekolah terendah, sehingga wilayah dalam cluster ini berpotensi mengalami kekurangan pendidik dan memerlukan prioritas intervensi.
|
||||||
|
|
||||||
2. Cluster Kepadatan Sedang terdiri dari 7 provinsi dengan jumlah pendidik dan sekolah pada kategori menengah. Rasio guru per sekolah berada dalam kisaran ideal sehingga wilayah ini berada pada kondisi relatif stabil.
|
2. Cluster Kepadatan Sedang terdiri dari 7 provinsi dengan jumlah pendidik dan sekolah pada kategori menengah. Rasio guru per sekolah berada dalam kisaran ideal sehingga wilayah ini berada pada kondisi relatif stabil.
|
||||||
|
|
||||||
3. Cluster Kepadatan Tinggi berisi 3 provinsi besar (Jawa Barat, Jawa Tengah, Jawa Timur) yang memiliki jumlah pendidik dan sekolah paling tinggi di Indonesia. Rasio guru per sekolah tetap berada pada rentang ideal, sehingga wilayah ini tidak membutuhkan penambahan pendidik, hanya optimalisasi pemerataan internal.
|
3. Cluster Kepadatan Tinggi berisi 3 provinsi besar (Jawa Barat, Jawa Tengah, Jawa Timur) yang memiliki jumlah pendidik dan sekolah paling tinggi di Indonesia. Rasio guru per sekolah tetap berada pada rentang ideal, sehingga wilayah ini tidak membutuhkan penambahan pendidik, hanya optimalisasi pemerataan internal.
|
||||||
|
|
||||||
Hasil clustering menunjukkan adanya ketimpangan distribusi pendidik antar wilayah, dengan beberapa provinsi memiliki jumlah pendidik yang jauh lebih rendah dibanding provinsi lainnya. Secara keseluruhan, algoritma K-Means mampu memberikan segmentasi wilayah yang jelas dan bermakna, sehingga dapat digunakan sebagai dasar pengambilan keputusan dalam perencanaan kebutuhan pendidik, pemerataan guru, dan penguatan kualitas pendidikan pada tingkat nasional.
|
Hasil clustering menunjukkan adanya ketimpangan distribusi pendidik antar wilayah, dengan beberapa provinsi memiliki jumlah pendidik yang jauh lebih rendah dibanding provinsi lainnya. Secara keseluruhan, algoritma K-Means mampu memberikan segmentasi wilayah yang jelas dan bermakna, sehingga dapat digunakan sebagai dasar pengambilan keputusan dalam perencanaan kebutuhan pendidik, pemerataan guru, dan penguatan kualitas pendidikan pada tingkat nasional.
|
||||||
Loading…
x
Reference in New Issue
Block a user