Update README.md
This commit is contained in:
parent
65359e01cc
commit
52cb2aabfe
138
README.md
138
README.md
@ -11,33 +11,35 @@ Anggota:
|
||||
4. Lakukan cross validation
|
||||
5. Laporan diletakkan di gitlab
|
||||
|
||||
# Jumlah Pendidik SMA/MA/Sederajat tahun 2023
|
||||
# Pendahuluan
|
||||
Pendidikan merupakan aspek fundamental dalam pembangunan suatu bangsa karena berperan penting dalam meningkatkan kualitas sumber daya manusia. Pemerintah Indonesia menempatkan sektor pendidikan sebagai prioritas pembangunan nasional, sebagaimana tercantum dalam Undang-Undang Nomor 20 Tahun 2003 tentang Sistem Pendidikan Nasional.
|
||||
|
||||
Sumber: https://data.go.id/dataset/dataset/jumlah-pendidik-sma-sma-ma-sederajat-2024
|
||||
Tenaga pendidik, khususnya guru pada jenjang SMA dan sederajat, memiliki peran strategis sebagai penghubung antara pendidikan dasar dan pendidikan tinggi. Oleh karena itu, analisis terhadap data jumlah pendidik SMA/sederajat menjadi penting untuk mengetahui persebaran guru serta potensi ketimpangan antar wilayah.
|
||||
|
||||
Pendidikan merupakan salah satu aspek fundamental dalam pembangunan suatu bangsa. Melalui pendidikan, kualitas sumber daya manusia dapat ditingkatkan sehingga mampu berkontribusi terhadap kemajuan sosial, ekonomi, dan budaya. Pemerintah Indonesia menempatkan sektor pendidikan sebagai prioritas utama dalam pembangunan nasional, sebagaimana tercantum dalam Undang-Undang Nomor 20 Tahun 2003 tentang Sistem Pendidikan Nasional. Salah satu jenjang pendidikan yang memiliki peran strategis adalah jenjang Sekolah Menengah Atas (SMA) dan sederajat yang berfungsi sebagai penghubung antara pendidikan dasar dan pendidikan tinggi.
|
||||
Dataset jumlah pendidik SMA/MA/sederajat tahun 2023 yang bersumber dari data.go.id memberikan gambaran kondisi tenaga pendidik di seluruh provinsi di Indonesia. Analisis terhadap dataset ini diharapkan dapat membantu dalam perencanaan pemerataan pendidik dan peningkatan mutu pendidikan nasional.
|
||||
|
||||
Tenaga pendidik, khususnya guru, merupakan unsur kunci dalam keberhasilan penyelenggaraan pendidikan. Kualitas serta kuantitas tenaga pendidik sangat menentukan mutu proses pembelajaran dan capaian hasil pendidikan. Oleh karena itu, ketersediaan data yang akurat terkait jumlah pendidik menjadi sangat penting dalam perencanaan, evaluasi, hingga pengambilan kebijakan pendidikan. Data jumlah pendidik SMA/sederajat dapat digunakan untuk mengidentifikasi persebaran guru, menentukan kebutuhan penambahan tenaga pendidik, dan menilai efektivitas program pengembangan kualitas guru.
|
||||
# Dataset
|
||||
Sumber data: https://data.go.id/dataset/dataset/jumlah-pendidik-sma-sma-ma-sederajat-2024
|
||||
|
||||
Pada tahun 2023, Indonesia mencatat jumlah tenaga pendidik pada jenjang SMA dan sederajat yang tersebar di seluruh provinsi. Data tersebut memberikan gambaran mengenai kondisi tenaga pendidik di tingkat menengah atas, baik dari segi kuantitas maupun persebarannya. Analisis terhadap data ini dapat membantu mengetahui apakah distribusi pendidik telah merata di seluruh wilayah Indonesia atau masih terdapat ketimpangan antar daerah. Dengan demikian, pemerintah dan pemangku kepentingan dapat menyusun strategi yang lebih tepat sasaran dalam pemerataan dan peningkatan mutu pendidikan.
|
||||
|
||||
# Analisis Dataset: Clustering
|
||||
Nama dataset: Jumlah Pendidik SMA/MA/Sederajat Tahun 2023
|
||||
Jumlah data: 24 provinsi
|
||||
Variabel utama:
|
||||
1. Jumlah pendidik SMA/sederajat
|
||||
2. Jumlah sekolah SMA/sederajat
|
||||
3. Rasio guru per sekolah
|
||||
Dataset tidak memiliki nilai kosong (missing value) dan siap digunakan untuk analisis.
|
||||
|
||||
# Metode Analisis: Clustering
|
||||
Clustering merupakan salah satu metode unsupervised learning, yang mana dataset akan dipartisi menjadi kelompok atau cluster yang berbeda berdasarkan ukuran kesamaan tertentu. Metode ini akan mengelompokkan objek-objek ke dalam cluster berdasarkan karakteristik yang memiliki tingkat kemiripan yang signifikan jika berada dalam satu kluster, dan memiliki perbedaan yang cukup besar jika objek berada dalam kluster yang berbeda.
|
||||
|
||||
Algoritma yang paling cocok untuk mengolah dataset ini adalah Clustering
|
||||
Algoritma yang disarankan:
|
||||
1. K-Means Clustering
|
||||
2. Hierarchical Clustering
|
||||
3. DBSCAN
|
||||
|
||||
Alasan Dataset jumlah pendidik per wilayah sangat cocok untuk clustering karena:
|
||||
1. Mengelompokkan wilayah berdasarkan kesamaan jumlah pendidik
|
||||
2. Mengidentifikasi pola distribusi pendidik (wilayah surplus vs kekurangan)
|
||||
3. Menemukan cluster wilayah dengan karakteristik serupa
|
||||
4. Membantu pemerintah dalam perencanaan distribusi guru
|
||||
Kedua metode digunakan untuk membandingkan hasil pengelompokan wilayah berdasarkan jumlah pendidik dan jumlah sekolah.
|
||||
|
||||
# Metode Penelitian: K-Means Clustering
|
||||
# A. Metode Penelitian: K-Means Clustering
|
||||
|
||||
Pada penelitian ini data dianalisis dengan metode analisis clusterya itu K-Means Clustering yang mana termasuk dalam metode non hirarki. K-Means menggunakan pendekatan yang berbeda dengan metode lain seperti Fuzzy C-Means, Agglomerative Hierarchical Clustering, dan K-Medoids. K-Means hanya memungkinkan suatu data menjadi bagian dari satu cluster, sedangkan metode lain seperti Fuzzy C-Means memungkinkan suatu data tidak hanya menjadi bagian dari satu cluster saja.
|
||||
|
||||
@ -58,87 +60,55 @@ Tujuan K-Means
|
||||
2. Memaksimalkan perbedaan antar cluster.
|
||||
3. Menghasilkan pengelompokan wilayah yang mencerminkan kesamaan jumlah pendidik.
|
||||
|
||||
# Hasil dan Pembahasan
|
||||
Evaluasi dan Penentuan Jumlah Cluster
|
||||
Elbow Method menunjukkan titik optimal pada K = 3
|
||||
Silhouette Score:
|
||||
K = 2 → 0,731
|
||||
K = 3 → 0,595
|
||||
Meskipun K=2 memiliki skor lebih tinggi, K=3 dipilih karena lebih mudah diinterpretasikan secara kebijakan (kepadatan rendah, sedang, tinggi).
|
||||
|
||||
A. EKSPLORASI DATA AWAL
|
||||
Hasil Evaluasi Model
|
||||
Inertia: 3,68
|
||||
Silhouette Score: 0,595 (kategori baik)
|
||||
Davies-Bouldin Index: 0,464 (semakin kecil semakin baik)
|
||||
|
||||
Dataset yang digunakan terdiri dari 24 wilayah provinsi di Indonesia, dengan tiga variabel utama:
|
||||
1. Jumlah Pendidik SMA/Sederajat
|
||||
2. Jumlah Sekolah SMA/Sederajat
|
||||
3. Rasio Guru per Sekolah
|
||||
Hasil ini menunjukkan model clustering cukup stabil dan mampu memisahkan data dengan baik.
|
||||
|
||||
Berdasarkan eksplorasi awal:
|
||||
1. Tidak terdapat data yang hilang (missing value).
|
||||
2. Nilai rata-rata jumlah pendidik adalah 7.937, dengan standar deviasi 6.573, menunjukkan adanya variasi besar antar wilayah.
|
||||
3. Rasio guru per sekolah memiliki nilai minimum 20 dan maksimum 33,3, dengan rata-rata sekitar 24,7.
|
||||
Secara umum, terdapat perbedaan signifikan antara wilayah-wilayah yang memiliki jumlah pendidik dan sekolah besar (seperti Jawa Barat dan Jawa Timur) dengan wilayah yang memiliki kapasitas lebih kecil (seperti Papua Barat, Gorontalo, dan Maluku Utara).
|
||||
# Hasil K-means Clustering
|
||||
Pembagian Cluster
|
||||
1. Cluster Kepadatan Rendah: 14 provinsi
|
||||
2. Cluster Kepadatan Sedang: 7 provinsi
|
||||
3. Cluster Kepadatan Tinggi: 3 provinsi (Jawa Barat, Jawa Tengah, Jawa Timur)
|
||||
|
||||
B. PERSIAPAN DATA
|
||||
Interpretasi Cluster
|
||||
|
||||
Clustering dilakukan menggunakan dua fitur utama:
|
||||
1. Jumlah pendidik
|
||||
2. Jumlah sekolah
|
||||
Sebelum proses clustering, data dinormalisasi menggunakan StandardScaler, sehingga setiap fitur berada dalam skala yang sama. Hal ini penting agar variabel dengan nilai besar (jumlah pendidik) tidak mendominasi proses pengelompokan.
|
||||
Kepadatan Rendah
|
||||
Rasio guru per sekolah: 22,31 (di bawah standar ideal).
|
||||
➜ Rekomendasi: Penambahan dan pemerataan guru.
|
||||
|
||||
C. PENENTUAN JUMLAH CLUSTER OPTIMAL
|
||||
Kepadatan Sedang
|
||||
Rasio guru per sekolah: 27,88 (ideal).
|
||||
➜ Rekomendasi: Menjaga stabilitas distribusi.
|
||||
|
||||
Metode evaluasi yang digunakan:
|
||||
1. Elbow Method (Inertia)
|
||||
Nilai inertia terus menurun seiring bertambahnya jumlah cluster. Titik siku (elbow) terlihat pada K = 3, yang menunjukkan penurunan inertia tidak lagi signifikan setelah titik tersebut.
|
||||
2. Silhouette Score
|
||||
Silhouette Score tertinggi berada pada:
|
||||
a. K = 2 : 0.731
|
||||
b. K = 3 : 0.595
|
||||
Meskipun K=2 memiliki nilai lebih tinggi, namun K=3 dipilih karena menghasilkan segmentasi yang lebih baik secara interpretasi kebijakan (rendah, sedang, tinggi) dan masih dalam kategori skor baik (>0.5). Sehingga jumlah cluster optimal ditetapkan sebagai K = 3.
|
||||
Kepadatan Tinggi
|
||||
Rasio guru per sekolah: 28,28 (ideal).
|
||||
➜ Rekomendasi: Optimalisasi dan pemerataan internal.
|
||||
|
||||
D. IMPLEMENTASI K-MEANS CLUSTERING
|
||||
# Hierarchical Clustering
|
||||
Hierarchical Clustering merupakan metode clustering yang mengelompokkan data secara bertahap berdasarkan tingkat kemiripan antar data. Metode ini tidak menggunakan centroid seperti K-Means.
|
||||
Hasil pengelompokan menunjukkan pola cluster yang relatif serupa dengan K-Means, yaitu pembagian wilayah ke dalam kepadatan rendah, sedang, dan tinggi.
|
||||
Hierarchical Clustering memberikan pemahaman yang lebih jelas mengenai hubungan dan kemiripan antar wilayah, meskipun prosesnya lebih kompleks dan kurang efisien dibandingkan K-Means.
|
||||
|
||||
Proses K-Means dilakukan dengan K = 3, menghasilkan:
|
||||
1. Inertia : 3.68
|
||||
2. Silhouette Score : 0.595 (kategori baik)
|
||||
3. Davies-Bouldin Index : 0.464 (semakin kecil semakin baik),
|
||||
Ini menunjukkan model clustering stabil dan cukup baik dalam memisahkan data.
|
||||
# Perbandingan K-Means vs Hierarchical Clustering
|
||||
Berdasarkan hasil pengolahan data jumlah pendidik SMA/MA/sederajat tahun 2023, algoritma K-Means dan Hierarchical Clustering menghasilkan pola pengelompokan wilayah yang relatif serupa. Kedua metode membagi data ke dalam tiga cluster utama, yaitu kepadatan pendidik rendah, sedang, dan tinggi, yang menunjukkan adanya perbedaan distribusi pendidik antar wilayah di Indonesia. Hasil ini menegaskan bahwa struktur data cukup jelas sehingga dapat dikenali dengan baik oleh kedua pendekatan clustering, serta mampu menggambarkan ketimpangan dan kesamaan karakteristik antar provinsi.
|
||||
|
||||
E. HASIL PENGELOMPOKKAN
|
||||
|
||||
Berdasarkan perhitungan rata-rata jumlah pendidik per cluster, tiga kategori ditetapkan:
|
||||
1. Cluster 0: Kepadatan Rendah
|
||||
2. Cluster 1: Kepadatan Tinggi
|
||||
3. Cluster 2: Kepadatan Sedang
|
||||
|
||||
F. INTERPRETASI PER CLUSTER
|
||||
|
||||
1. Cluster Kepadatan Rendah
|
||||
Berisi 14 wilayah, seperti: Papua, Kalimantan Timur, Maluku, NTB, Gorontalo, dll. Memiliki nilai pendidik dan sekolah paling rendah. Rasio guru per sekolah: 22,31, di bawah standar ideal (25–30).
|
||||
➡ Rekomendasi: Perlu penambahan guru dan pemerataan distribusi pendidik.
|
||||
|
||||
2. Cluster Kepadatan Sedang
|
||||
Terdiri dari 7 wilayah: DKI Jakarta, Sumatera Utara, Banten, Lampung, Aceh, dan lainnya. Memiliki karakteristik jumlah pendidik dan sekolah menengah. Rasio guru per sekolah: 27,88, dalam kategori ideal.
|
||||
➡ Rekomendasi: Tidak memerlukan intervensi besar; cukup menjaga stabilitas distribusi guru.
|
||||
|
||||
3. Cluster Kepadatan Tinggi
|
||||
Berisi 3 wilayah utama: Jawa Barat, Jawa Tengah, Jawa Timur. Memiliki jumlah pendidik dan sekolah tertinggi di Indonesia. Rasio guru per sekolah: 28,28, masih dalam batas ideal.
|
||||
➡ Rekomendasi: Tidak membutuhkan penambahan guru; fokus pada efisiensi dan pemerataan internal.
|
||||
|
||||
# Penelitian: k-Means Clustering
|
||||
File CSV tersebut adalah output akhir dari analisis K-Means Clustering yang berfungsi untuk:
|
||||
|
||||
1. Mengelompokkan provinsi berdasarkan jumlah pendidik
|
||||
2. Menentukan kategori kepadatan pendidik (rendah/sedang/tinggi)
|
||||
Perbedaan kedua metode terletak pada pendekatan pengelompokannya. K-Means mengelompokkan data berdasarkan kedekatan terhadap pusat cluster (centroid) sehingga prosesnya lebih cepat, sederhana, dan efisien untuk analisis umum serta pengambilan keputusan. Sementara itu, Hierarchical Clustering mengelompokkan data secara bertahap berdasarkan tingkat kemiripan antar wilayah, sehingga memberikan pemahaman yang lebih mendalam mengenai struktur dan hubungan antar data. Dengan demikian, K-Means lebih unggul dari sisi efisiensi komputasi, sedangkan Hierarchical Clustering lebih informatif dalam menjelaskan hubungan antar wilayah, sehingga keduanya saling melengkapi dalam analisis distribusi pendidik.
|
||||
|
||||
# Kesimpulan
|
||||
Berdasarkan analisis clustering terhadap data jumlah pendidik dan jumlah sekolah SMA/sederajat tahun 2023, dapat disimpulkan bahwa:
|
||||
|
||||
Berdasarkan analisis clustering menggunakan algoritma K-Means terhadap data jumlah pendidik dan jumlah sekolah SMA/Sederajat di Indonesia tahun 2023, diperoleh beberapa kesimpulan utama sebagai berikut:
|
||||
Data berhasil dikelompokkan menjadi tiga cluster utama, yaitu:
|
||||
a. Cluster Kepadatan Rendah
|
||||
b. Cluster Kepadatan Sedang
|
||||
c. Cluster Kepadatan Tinggi
|
||||
|
||||
1. Cluster Kepadatan Rendah berisi sebagian besar wilayah (14 provinsi) dengan jumlah pendidik dan sekolah yang relatif kecil. Cluster ini memiliki rasio guru per sekolah terendah, sehingga wilayah dalam cluster ini berpotensi mengalami kekurangan pendidik dan memerlukan prioritas intervensi.
|
||||
|
||||
2. Cluster Kepadatan Sedang terdiri dari 7 provinsi dengan jumlah pendidik dan sekolah pada kategori menengah. Rasio guru per sekolah berada dalam kisaran ideal sehingga wilayah ini berada pada kondisi relatif stabil.
|
||||
|
||||
3. Cluster Kepadatan Tinggi berisi 3 provinsi besar (Jawa Barat, Jawa Tengah, Jawa Timur) yang memiliki jumlah pendidik dan sekolah paling tinggi di Indonesia. Rasio guru per sekolah tetap berada pada rentang ideal, sehingga wilayah ini tidak membutuhkan penambahan pendidik, hanya optimalisasi pemerataan internal.
|
||||
|
||||
Hasil clustering menunjukkan adanya ketimpangan distribusi pendidik antar wilayah, dengan beberapa provinsi memiliki jumlah pendidik yang jauh lebih rendah dibanding provinsi lainnya. Secara keseluruhan, algoritma K-Means mampu memberikan segmentasi wilayah yang jelas dan bermakna, sehingga dapat digunakan sebagai dasar pengambilan keputusan dalam perencanaan kebutuhan pendidik, pemerataan guru, dan penguatan kualitas pendidikan pada tingkat nasional.
|
||||
1. Dataset berhasil dikelompokkan menjadi tiga cluster utama: kepadatan rendah, sedang, dan tinggi.
|
||||
2. K-Means Clustering menghasilkan pengelompokan yang jelas, stabil, dan mudah diinterpretasikan.
|
||||
3. Hierarchical Clustering menunjukkan pola pengelompokan yang serupa, dengan keunggulan dalam memahami hubungan antar wilayah.
|
||||
4. Hasil clustering mengindikasikan adanya ketimpangan distribusi pendidik antar provinsi, sehingga dapat dijadikan dasar pengambilan kebijakan pemerataan guru di tingkat nasional.
|
||||
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user