110 lines
6.7 KiB
Markdown

# Proyek Machine Learning
Anggota:
1. Ananda Dwi Prasetyo (202310715065)
2. Muhammad Bintang Mudzaffar (202310715001)
3. Muhammad Shaddam Maghany Suryasaputra (202310715093)
# Ketentuan Tugas
1. menentukan dataset nasional yang terdapat pada https://data.go.id/
2. Tentukan algoritma (klasifikasi, regresi atau klastering) yang paling cocok
3. Lakukan evaluasi model
4. Lakukan cross validation
5. Laporan diletakkan di gitlab
# Jumlah Pendidik SMA/MA/Sederajat tahun 2023
Sumber: https://data.go.id/dataset/dataset/jumlah-pendidik-sma-sma-ma-sederajat-2024
Pendidikan merupakan salah satu aspek fundamental dalam pembangunan suatu bangsa. Melalui pendidikan, kualitas sumber daya manusia dapat ditingkatkan sehingga mampu berkontribusi terhadap kemajuan sosial, ekonomi, dan budaya. Pemerintah Indonesia menempatkan sektor pendidikan sebagai prioritas utama dalam pembangunan nasional, sebagaimana tercantum dalam Undang-Undang Nomor 20 Tahun 2003 tentang Sistem Pendidikan Nasional. Salah satu jenjang pendidikan yang memiliki peran strategis adalah jenjang Sekolah Menengah Atas (SMA) dan sederajat yang berfungsi sebagai penghubung antara pendidikan dasar dan pendidikan tinggi.
Tenaga pendidik, khususnya guru, merupakan unsur kunci dalam keberhasilan penyelenggaraan pendidikan. Kualitas serta kuantitas tenaga pendidik sangat menentukan mutu proses pembelajaran dan capaian hasil pendidikan. Oleh karena itu, ketersediaan data yang akurat terkait jumlah pendidik menjadi sangat penting dalam perencanaan, evaluasi, hingga pengambilan kebijakan pendidikan. Data jumlah pendidik SMA/sederajat dapat digunakan untuk mengidentifikasi persebaran guru, menentukan kebutuhan penambahan tenaga pendidik, dan menilai efektivitas program pengembangan kualitas guru.
Pada tahun 2023, Indonesia mencatat jumlah tenaga pendidik pada jenjang SMA dan sederajat yang tersebar di seluruh provinsi. Data tersebut memberikan gambaran mengenai kondisi tenaga pendidik di tingkat menengah atas, baik dari segi kuantitas maupun persebarannya. Analisis terhadap data ini dapat membantu mengetahui apakah distribusi pendidik telah merata di seluruh wilayah Indonesia atau masih terdapat ketimpangan antar daerah. Dengan demikian, pemerintah dan pemangku kepentingan dapat menyusun strategi yang lebih tepat sasaran dalam pemerataan dan peningkatan mutu pendidikan.
# Analisis Dataset: Clustering
Clustering merupakan salah satu metode unsupervised learning, yang mana dataset akan dipartisi menjadi kelompok atau cluster yang berbeda berdasarkan ukuran kesamaan tertentu. Metode ini akan mengelompokkan objek-objek ke dalam cluster berdasarkan karakteristik yang memiliki tingkat kemiripan yang signifikan jika berada dalam satu kluster, dan memiliki perbedaan yang cukup besar jika objek berada dalam kluster yang berbeda.
Algoritma yang paling cocok untuk mengolah dataset ini adalah Clustering
Algoritma yang disarankan:
1. K-Means Clustering
2. Hierarchical Clustering
3. DBSCAN
Alasan Dataset jumlah pendidik per wilayah sangat cocok untuk clustering karena:
1. Mengelompokkan wilayah berdasarkan kesamaan jumlah pendidik
2. Mengidentifikasi pola distribusi pendidik (wilayah surplus vs kekurangan)
3. Menemukan cluster wilayah dengan karakteristik serupa
4. Membantu pemerintah dalam perencanaan distribusi guru
# Metode Penelitian: K-Means Clustering
Pada penelitian ini data dianalisis dengan metode analisis clusterya itu K-Means Clustering yang mana termasuk dalam metode non hirarki. K-Means menggunakan pendekatan yang berbeda dengan metode lain seperti Fuzzy C-Means, Agglomerative Hierarchical Clustering, dan K-Medoids. K-Means hanya memungkinkan suatu data menjadi bagian dari satu cluster, sedangkan metode lain seperti Fuzzy C-Means memungkinkan suatu data tidak hanya menjadi bagian dari satu cluster saja.
K-Means adalah metode pengelompokan non-hierarki yang membagi data menjadi k kelompok (cluster) berdasarkan kedekatannya dengan centroid (titik pusat cluster).
Cara Kerja K-Means:
1. Menentukan jumlah cluster (k).
2. Inisialisasi centroid secara acak.
3. Menghitung jarak setiap data terhadap centroid.
4. Menempatkan data ke cluster terdekat.
5. Memperbarui posisi centroid berdasarkan rata-rata data pada cluster.
6. Mengulangi proses hingga centroid stabil (konvergen).
Tujuan K-Means
1. Meminimalkan jarak antar data dalam satu cluster.
2. Memaksimalkan perbedaan antar cluster.
3. Menghasilkan pengelompokan wilayah yang mencerminkan kesamaan jumlah pendidik.
# Hasil dan Pembahasan
A. Eksplorasi Data Awal
Dataset yang digunakan terdiri dari 24 wilayah provinsi di Indonesia, dengan tiga variabel utama:
1. Jumlah Pendidik SMA/Sederajat
2. Jumlah Sekolah SMA/Sederajat
3. Rasio Guru per Sekolah
Berdasarkan eksplorasi awal:
1. Tidak terdapat data yang hilang (missing value).
2. Nilai rata-rata jumlah pendidik adalah 7.937, dengan standar deviasi 6.573, menunjukkan adanya variasi besar antar wilayah.
3. Rasio guru per sekolah memiliki nilai minimum 20 dan maksimum 33,3, dengan rata-rata sekitar 24,7.
Secara umum, terdapat perbedaan signifikan antara wilayah-wilayah yang memiliki jumlah pendidik dan sekolah besar (seperti Jawa Barat dan Jawa Timur) dengan wilayah yang memiliki kapasitas lebih kecil (seperti Papua Barat, Gorontalo, dan Maluku Utara).
B. Persiapan data
Clustering dilakukan menggunakan dua fitur utama:
1. Jumlah pendidik
2. Jumlah sekolah
Sebelum proses clustering, data dinormalisasi menggunakan StandardScaler, sehingga setiap fitur berada dalam skala yang sama. Hal ini penting agar variabel dengan nilai besar (jumlah pendidik) tidak mendominasi proses pengelompokan.
C. Penentuan Jumlah Cluster Optimal
Metode evaluasi yang digunakan:
1. Elbow Method (Inertia)
Nilai inertia terus menurun seiring bertambahnya jumlah cluster. Titik siku (elbow) terlihat pada K = 3, yang menunjukkan penurunan inertia tidak lagi signifikan setelah titik tersebut.
2. Silhouette Score
Silhouette Score tertinggi berada pada:
K = 2 : 0.731
K = 3 : 0.595
Meskipun K=2 memiliki nilai lebih tinggi, namun K=3 dipilih karena menghasilkan segmentasi yang lebih baik secara interpretasi kebijakan (rendah, sedang, tinggi) dan masih dalam kategori skor baik (>0.5). Sehingga jumlah cluster optimal ditetapkan sebagai K = 3.
D. Implementasi K-Means Clustering
Proses K-Means dilakukan dengan K = 3, menghasilkan:
1. Inertia : 3.68
2. Silhouette Score : 0.595 (kategori baik)
3. Davies-Bouldin Index : 0.464 (semakin kecil semakin baik)
Ini menunjukkan model clustering stabil dan cukup baik dalam memisahkan data.
# Penelitian: k-Means Clustering
File CSV tersebut adalah output akhir dari analisis K-Means Clustering yang berfungsi untuk:
1. Mengelompokkan provinsi berdasarkan jumlah pendidik
2. Menentukan kategori kepadatan pendidik (rendah/sedang/tinggi)